ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.04.2021
Просмотров: 1664
Скачиваний: 36
96
но не является случайной переменной, то уравнение
Y
относительно
X
будет называться уравнением регрессии
.
Будем далее предполагать, что переменные - предикторы не
подвержены случайным вариациям (изменениям), а отклики –
подвержены. Если же это не так, то тогда требуются более
сложные методы построения зависимостей.
Линейная регрессия: подбор прямой
Предположим, что линия регрессии переменной,
которую обозначим
Y
, от переменной
X
имеет вид
X
1
0
.
Тогда можно записать линейную модель
X
Y
1
0
. (9.11)
Уравнение (9.11) – это модель, которой мы задаемся, или
которую мы постулируем. Постулирование модели есть
предварительное допущение об ее правильности. Модель надо
критически исследовать в разных аспектах. Мнение о модели
может измениться на более поздней стадии исследования. При
этом величины
0
и
1
называют параметрами модели.
Замечание.
Когда мы говорим, что модель линейная или нелинейная,
то имеется в виду линейность по параметрам.
Величина наивысшей степени предиктора в модели
называется порядком модели. Например,
2
2
1
0
X
X
Y
есть регрессионная модель 2-го порядка (по
X
) и линейная
(по
).
Итак, в уравнении (9.11) величины
0
,
1
и
неизвестны, причем,
будет трудно исследовать, поскольку
она меняется от наблюдения к наблюдению. Величины
0
и
1
остаются постоянными, и мы можем получить для них
оценки
0
b
и
1
b
. Запишем это в виде:
X
b
b
Y
1
0
. (9.12)
97
Уравнение (9.12) можно использовать как предсказывающее:
подстановка в него некоторого значения
X
позволяет
предсказать среднее «истинное» значение
Y
для этого
X
.
Процедурой оценивания будет метод наименьших
квадратов
(МНК), разработанный Гауссом и, независимо от него,
Лежандром примерно в 1795—1803 гг.
Пусть мы имеем множество из
n
наблюдений
)
,
),...(
,
(
1
1
n
n
Y
X
Y
X
. Тогда уравнение (9.11) перепишется в виде:
i
i
i
X
Y
1
0
,
где
n
i
,...
2
,
1
.
Следовательно, сумма квадратов отклонений от «истинной»
линии есть
n
i
i
i
X
Y
S
1
2
1
0
)
(
. (9.13)
Будем подбирать значения оценок
0
b
и
1
b
так, чтобы их
подстановка вместо
0
и
1
в уравнение (9.13) давала
минимальное (наименьшее возможное) значение
S
(см. рис.
9.2).
Рис. 9.2
Здесь линия, подобранная методом наименьших
квадратов такова, что делает сумму всех вертикальных
расхождений настолько малой, насколько это возможно.
Заметим, что
i
X
,
i
Y
– фиксированные числа, которые нам
98
известны.
Мы можем определить
0
b
и
1
b
, дифференцируя
уравнение (9.13) сначала по
0
, затем по
1
, и приравнивая
результаты к нулю. Тогда
n
i
i
i
X
Y
S
1
1
0
0
)
(
2
,
n
i
i
i
i
X
Y
X
S
1
1
0
1
)
(
2
. (9.14).
Так что для оценок
0
b
и
1
b
имеем:
0
)
(
1
1
0
n
i
i
i
X
b
b
Y
,
0
)
(
1
1
0
n
i
i
i
i
X
b
b
Y
X
, (9.15)
где мы приравняли выражения (9.14) к нулю и подставили
)
,
(
1
0
b
b
вместо
)
,
(
1
0
. Из (9.15) имеем:
n
i
n
i
i
i
X
b
n
b
Y
1
1
1
0
0
,
n
i
n
i
i
n
i
i
i
i
X
b
X
b
Y
X
1
1
2
1
1
0
0
,
или
n
i
n
i
i
i
Y
X
b
n
b
1
1
1
0
,
n
i
n
i
i
i
i
n
i
i
Y
X
X
b
X
b
1
1
2
1
1
0
. (9.16)
Эти
уравнения
называются
нормальными
.
Решение
уравнений (9.16) относительно угла наклона прямой
1
b
дает
n
X
X
n
Y
X
Y
X
b
i
i
i
i
i
i
2
2
1
)
(
=
2
)
(
)
)(
(
X
X
Y
Y
X
X
i
i
i
, (9.17)
где суммирование ведется по
n
i
,...
2
,
1
.
99
Два выражения для
1
b
– это обе правильные, но несколько
различные формы одной и той же величины. Так как по
определению
n
X
n
X
X
X
i
n
)
...
(
1
,
n
Y
n
Y
Y
Y
i
n
)
...
(
1
,
имеем:
)
)(
(
Y
Y
X
X
i
i
=
Y
X
n
X
Y
Y
X
Y
X
i
i
i
i
=
Y
X
n
Y
X
i
i
=
n
Y
X
Y
X
i
i
i
i
.
Отсюда следует эквивалентность числителей в (9.17), а также
и знаменателей при замене
Y
на
X
.
Величина
2
i
X
называется нескорректированной
суммой квадратов
X
-в,
n
X
i
2
– коррекцией на среднее значение
X
-в.
Разность
между
ними
n
X
X
i
i
2
2
называется
скорректированной суммой квадратов
X
-в.
Аналогично
i
i
Y
X
называется нескорректированной суммой
смешанных (парных) произведений
X
и
Y
,
n
Y
X
i
i
– коррекцией на среднее значение произведений.
Разность между ними
n
Y
X
Y
X
i
i
i
i
называется
скорректированной суммой произведений
X
и
Y
.
Введем удобные обозначения:
)
)(
(
Y
Y
X
X
S
i
i
XY
=
n
Y
X
Y
X
i
i
i
i
=
Y
X
n
Y
X
i
i
=
i
i
Y
X
X
)
(
=
i
i
X
Y
Y
)
(
.
Заметим, что все эти выражения эквивалентны. Запишем далее
по аналогии с предыдущим:
2
)
(
X
X
S
i
XX
=
n
X
X
i
i
2
2
)
(
=
i
i
X
X
X
)
(
=
2
2
X
n
X
i
.
100
2
)
(
Y
Y
S
i
YY
=
n
Y
Y
i
i
2
2
)
(
=
i
i
Y
Y
Y
)
(
=
2
2
Y
n
Y
i
.
Для
1
b
получается легко запоминающаяся формула:
XX
XY
S
S
b
1
. (9.17.а)
Решение уравнения (9.16) относительно свободного члена
(отрезка на оси ординат при
0
X
) дает:
X
b
Y
b
1
0
. (9.18)
Подстановка (9.18) в уравнение (9.12) дает оцениваемое
уравнение регрессии
)
(
1
X
X
b
Y
Y
i
i
, (9.19)
где
1
b
определяется уравнением (9.17).
Если в (9.19) положить
X
X
i
, то окажется, что
Y
Y
i
, а это
означает, что точка
)
,
(
Y
X
лежит на подобранной прямой.
Разность между наблюдаемым (истинным) значением
i
Y
и оценкой прогнозируемой величины
i
Y
называется
остатком
i
i
Y
Y
. Остатков получается столько же, сколько
исходных данных.
Так как
)
(
1
X
X
b
Y
Y
i
i
, то
)
(
)
(
1
X
X
b
Y
Y
Y
Y
i
i
i
i
,
n
i
i
n
i
i
n
i
i
i
X
X
b
Y
Y
Y
Y
1
1
1
1
0
)
(
)
(
)
(
.
Следовательно, и сумма остатков будет равна нулю. На
практике из-за ошибок округления она может оказаться не
точно равной нулю.
В любой регрессионной задаче сумма остатков
всегда
равна нулю, если член
0
входит в модель. Это следствие
первого из нормальных уравнений. Исключение
0
из модели
приводит к тому, что отклик обращается в нуль, когда все
предикторы равны нулю. Такое предположение слишком