ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1664

Скачиваний: 36

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

96 

но  не  является  случайной  переменной,  то  уравнение 

Y

 

относительно 

X

  будет  называться  уравнением  регрессии

.

 

Будем  далее  предполагать,  что  переменные  -  предикторы  не 
подвержены случайным вариациям (изменениям), а отклики – 
подвержены.  Если  же  это  не  так,  то  тогда  требуются  более 
сложные методы построения зависимостей. 

 

Линейная регрессия: подбор прямой 

 

Предположим,  что  линия  регрессии  переменной, 

которую обозначим 

Y

, от переменной 

X

 имеет вид 

X

1

0

Тогда можно записать линейную модель  

X

Y

1

0

 .                                 (9.11) 

Уравнение  (9.11)  –  это  модель,  которой  мы  задаемся,  или 
которую  мы  постулируем.  Постулирование  модели  есть 
предварительное допущение об ее правильности. Модель надо 
критически  исследовать  в  разных  аспектах. Мнение  о  модели 
может измениться на более поздней стадии исследования. При 
этом величины 

0

 и 

1

 называют параметрами модели. 

Замечание.

  

Когда мы говорим, что модель линейная или нелинейная, 

то имеется в виду линейность по параметрам. 

Величина  наивысшей  степени  предиктора  в  модели 

называется порядком модели. Например,  

2

2

1

0

X

X

Y

 

есть  регрессионная  модель  2-го  порядка  (по 

X

)  и  линейная 

(по 

). 

Итак,  в  уравнении  (9.11)  величины 

0

1

  и 

 

неизвестны,  причем, 

  будет  трудно  исследовать,  поскольку 

она  меняется  от  наблюдения  к  наблюдению.  Величины 

0

  и 

1

  остаются  постоянными,  и  мы  можем  получить  для  них 

оценки 

0

b

 и 

1

b

. Запишем это в виде:  

X

b

b

Y

1

0

.                                (9.12) 


background image

 

97 

Уравнение  (9.12)  можно  использовать  как  предсказывающее: 
подстановка  в  него  некоторого  значения 

X

  позволяет 

предсказать  среднее  «истинное»  значение 

Y

  для  этого 

X

Процедурой  оценивания  будет  метод  наименьших

 

квадратов 

(МНК),  разработанный  Гауссом  и,  независимо  от  него, 
Лежандром примерно в 1795—1803 гг. 

Пусть  мы  имеем  множество  из 

n

  наблюдений 

)

,

),...(

,

(

1

1

n

n

Y

X

Y

X

. Тогда уравнение (9.11) перепишется в виде: 

i

i

i

X

Y

1

0

где 

n

i

,...

2

,

1

.  

Следовательно,  сумма  квадратов  отклонений  от  «истинной» 
линии есть  

n

i

i

i

X

Y

S

1

2

1

0

)

(

.                           (9.13) 

Будем  подбирать  значения  оценок 

0

b

  и 

1

b

  так,  чтобы  их 

подстановка  вместо 

0

  и 

1

  в  уравнение  (9.13)  давала 

минимальное  (наименьшее  возможное)  значение 

S

  (см.  рис. 

9.2).  

 

 

Рис. 9.2 

 

Здесь  линия,  подобранная  методом  наименьших 

квадратов  такова,  что  делает  сумму  всех  вертикальных 
расхождений  настолько  малой,  насколько  это  возможно. 
Заметим,  что 

i

X

i

Y

  –  фиксированные  числа,  которые  нам 


background image

 

98 

известны.  

Мы  можем  определить 

0

b

  и 

1

b

,  дифференцируя 

уравнение  (9.13)  сначала  по 

0

,  затем  по 

1

,  и  приравнивая 

результаты к нулю. Тогда 

n

i

i

i

X

Y

S

1

1

0

0

)

(

2

n

i

i

i

i

X

Y

X

S

1

1

0

1

)

(

2

.              (9.14). 

Так что для оценок 

0

b

 и 

1

b

 имеем:  

0

)

(

1

1

0

n

i

i

i

X

b

b

Y

0

)

(

1

1

0

n

i

i

i

i

X

b

b

Y

X

,                     (9.15) 

где  мы  приравняли  выражения  (9.14)  к  нулю  и  подставили 

)

,

(

1

0

b

b

 вместо 

)

,

(

1

0

. Из (9.15) имеем:  

n

i

n

i

i

i

X

b

n

b

Y

1

1

1

0

0

n

i

n

i

i

n

i

i

i

i

X

b

X

b

Y

X

1

1

2

1

1

0

0

или 

n

i

n

i

i

i

Y

X

b

n

b

1

1

1

0

n

i

n

i

i

i

i

n

i

i

Y

X

X

b

X

b

1

1

2

1

1

0

.                     (9.16) 

Эти 

уравнения 

называются 

нормальными

Решение 

уравнений (9.16) относительно угла наклона прямой 

1

b

 дает 

n

X

X

n

Y

X

Y

X

b

i

i

i

i

i

i

2

2

1

)

(

2

)

(

)

)(

(

X

X

Y

Y

X

X

i

i

i

, (9.17) 

где суммирование ведется по 

n

i

,...

2

,

1

.  


background image

 

99 

Два  выражения  для 

1

b

  –  это  обе  правильные,  но  несколько 

различные  формы  одной  и  той  же  величины.  Так  как  по 
определению 

n

X

n

X

X

X

i

n

)

...

(

1

n

Y

n

Y

Y

Y

i

n

)

...

(

1

имеем: 

)

)(

(

Y

Y

X

X

i

i

=

Y

X

n

X

Y

Y

X

Y

X

i

i

i

i

=

Y

X

n

Y

X

i

i

n

Y

X

Y

X

i

i

i

i

 
Отсюда следует эквивалентность числителей в (9.17), а также 
и знаменателей при замене 

Y

 на 

X

Величина 

2

i

X

 

называется  нескорректированной 

суммой квадратов 

X

-в,  

n

X

i

2

 – коррекцией на среднее значение 

X

-в.  

Разность 

между 

ними 

n

X

X

i

i

2

2

 

называется 

скорректированной суммой квадратов 

X

-в.  

Аналогично 

i

i

Y

X

 называется нескорректированной суммой 

смешанных (парных) произведений 

X

 и 

Y

,  

n

Y

X

i

i

 

 – коррекцией на среднее значение произведений.  

Разность  между  ними 

n

Y

X

Y

X

i

i

i

i

 

  называется 

скорректированной суммой произведений 

X

 и 

Y

Введем удобные обозначения: 

)

)(

(

Y

Y

X

X

S

i

i

XY

=

 

n

Y

X

Y

X

i

i

i

i

=

Y

X

n

Y

X

i

i

i

i

Y

X

X

)

(

=

i

i

X

Y

Y

)

(

Заметим, что все эти выражения эквивалентны. Запишем далее 
по аналогии с предыдущим: 

2

)

(

X

X

S

i

XX

=

n

X

X

i

i

2

2

)

(

=

i

i

X

X

X

)

(

=

2

2

X

n

X

i

.

 

 


background image

 

100 

 

2

)

(

Y

Y

S

i

YY

=

n

Y

Y

i

i

2

2

)

(

=

i

i

Y

Y

Y

)

(

=

2

2

Y

n

Y

i

.  

Для 

1

b

 получается легко запоминающаяся формула:  

XX

XY

S

S

b

1

.                                (9.17.а) 

Решение  уравнения  (9.16)  относительно  свободного  члена 
(отрезка на оси ординат при 

0

X

)  дает: 

X

b

Y

b

1

0

.                                  (9.18) 

Подстановка  (9.18)  в  уравнение  (9.12)  дает  оцениваемое 
уравнение регрессии 

)

(

1

X

X

b

Y

Y

i

i

,                     (9.19) 

где 

1

b

 определяется уравнением (9.17).  

Если в (9.19) положить 

X

X

i

, то окажется, что 

Y

Y

i

, а это 

означает, что точка 

)

,

(

Y

X

 лежит на подобранной прямой. 

Разность  между  наблюдаемым  (истинным)  значением 

i

Y

  и  оценкой  прогнозируемой  величины 

i

Y

  называется 

остатком 

i

i

Y

Y

.  Остатков  получается  столько  же,  сколько 

исходных данных.  
Так как  

)

(

1

X

X

b

Y

Y

i

i

,  то 

)

(

)

(

1

X

X

b

Y

Y

Y

Y

i

i

i

i

,  

n

i

i

n

i

i

n

i

i

i

X

X

b

Y

Y

Y

Y

1

1

1

1

0

)

(

)

(

)

(

.  

Следовательно,  и  сумма  остатков  будет  равна  нулю.  На 
практике  из-за  ошибок  округления  она  может  оказаться  не 
точно равной нулю. 

В  любой  регрессионной  задаче  сумма  остатков

 

всегда 

равна  нулю,  если  член 

0

  входит  в  модель.  Это  следствие 

первого из нормальных уравнений. Исключение 

0

 из модели 

приводит  к  тому,  что  отклик  обращается  в  нуль,  когда  все 
предикторы  равны  нулю.  Такое  предположение  слишком