ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.04.2021
Просмотров: 1666
Скачиваний: 36
101
сильно и потому обычно не справедливо.
В линейной модели
X
Y
1
0
исключение
0
означает, что линия проходит через точку
0
X
,
0
Y
, т.е.
она отсекает нулевой отрезок
0
0
при
0
X
. Исключение
0
из модели возможно с помощью «центрирования» данных,
но это не то же самое, что приравнивание
0
0
. Если мы
запишем уравнение (9.11) в виде:
)
(
)
(
1
1
0
X
X
Y
X
Y
Y
,
или
x
y
1
0
,
где
Y
Y
y
,
X
X
x
Y
X
1
0
0
,
то оценки для
0
и
1
будут такими:
2
1
)
(
)
)(
(
x
x
y
y
x
x
b
i
i
i
=
2
)
(
)
)(
(
X
X
Y
Y
X
X
i
i
i
,
в соответствии с уравнением (9.17) и
0
1
0
x
b
y
b
так как
0
y
x
при любом значении
1
b
.
Поэтому можно записать центрированную модель, совсем
опуская свободный член (отрезок)
0
:
)
(
1
X
X
Y
Y
.
Таким образом, мы потеряли один параметр, что соответствует
потере данных, а это влечет за собой потерю части
информации. Потерянная часть
информации эффективно
используется для корректировки модели, позволяющей
исключить свободный член
9.4. Точность оценки регрессии
Рассмотрим вопрос о том, какая точность может быть
приписана оценке линии регрессии. Рассмотрим тождество:
)
(
Y
Y
Y
Y
Y
Y
i
i
i
i
. (9.20)
102
Что это означает геометрически, показано на рис. 9.3.
Рис. 9.3
Остаток
i
i
i
Y
Y
e
представляет собой разность между
двумя величинами:
1) отклонением наблюдаемого значения отклика
i
Y
от
общего среднего откликов
Y
и
2) отклонение предсказанного значения отклика
i
Y
от
того же общего среднего
Y
.
Заметим, что среднее арифметическое предсказанных
значений
i
Y
равно
n
X
b
b
n
Y
i
i
)
(
1
0
=
n
X
nb
nb
)
(
1
0
=
Y
X
b
b
1
0
.
Иными словами, среднее арифметическое предсказанных
значений
i
Y
то же, что и наблюдаемых откликов
i
Y
.Отсюда,
как было установлено ранее,
)
(
i
i
i
Y
Y
e
=
0
Y
n
Y
n
.
Уравнение (9.20) можно переписать еще и так:
)
(
)
(
i
i
i
i
Y
Y
Y
Y
Y
Y
.
Если мы возведем обе части этого выражения в квадрат и
просуммируем по
n
i
,...
2
,
1
, то получим:
2
2
2
)
(
)
(
)
(
i
i
i
i
Y
Y
Y
Y
Y
Y
. (9.21)
103
В уравнении (9.21) величина
Y
Y
i
– это отклонение
i
-го
наблюдения от общего среднего, следовательно, левая часть
уравнения (9.21) – это сумма квадратов отклонений
относительно среднего наблюдений (сокращенно
SS
относительно среднего
), а также скорректированная сумма
квадратов
Y
-в. Так как
i
i
Y
Y
есть отклонение
i
-го
наблюдения от его предсказанного или вычисленного значения
(
i
-й остаток), а
i
i
Y
Y
– отклонение предсказанного значения
i
-го наблюдения от среднего, то мы можем выразить
уравнение (9.21) словесно следующим образом: «сумма
квадратов относительно среднего» = «сумма квадратов
относительно регрессии» + «сумма квадратов, обусловленная
регрессией».
Пригодность линии регрессии для целей предсказания зависит
от того, какая именно часть
SS
относительно среднего
приходится на
SS
, обусловленную регрессией, а какая –
соответствует
SS
относительно регрессии.
Удовлетворительные результаты получаются, если
SS
,
обусловленная регрессией, будет много больше, чем
SS
относительно регрессии или, то же самое, если отношение
1
,
,
2
на
относитель
SS
ная
обусловлен
SS
R
.
будет не слишком отличаться от 1.
Всякая сумма квадратов связана с числом, называемым
ее степенями свободы. В статистике числом степеней свободы
некоторой величины часто называют разность между числом
различных опытов и числом констант, найденных по этим
опытам независимо друг от друга.
Это понятие можно применить к сумме квадратов. Мы
получим число, которое показывает, как много независимых
элементов информации, получающихся из
n
независимых
чисел
n
Y
Y
,...
1
, требуется для образования данной суммы
квадратов. Например, для
SS
относительно среднего
104
требуется
1
n
независимый элемент (из чисел
Y
Y
Y
Y
n
,...
1
независимы только
1
n
, так как сумма всех
n
чисел при
определении среднего приравнивалась к нулю).
Мы можем вычислить сумму квадратов
SS
, обусловленную
регрессией, используя единственную функцию от
n
Y
Y
,...
1
, а
именно
1
b
, [т.к.
2
2
1
2
)
(
)
(
X
X
b
Y
Y
i
i
], и поэтому
данная сумма квадратов имеет одну степень свободы.
По разности
SS
относительно регрессии имеет (
2
n
)
степени свободы. Это отражает тот факт, что рассматриваемые
остатки получены для модели прямой линии, которая требует
оценивания двух параметров. Вообще, остаточная сумма
квадратов основывается на числе степеней свободы, равном
числу наблюдений минус число оцениваемых параметров.
Следовательно, в соответствии с уравнением (9.21) мы можем
разложить степени свободы таким образом:
)
2
(
1
1
n
n
.
(9.22)
Пользуясь уравнениями (9.21) и (9.22), мы можем построить
таблицу дисперсионного анализа. (ANOVA). Обозначение
ANOVA произошло от английских слов « Analysis of variance».
«Средний квадрат»
MS
получается при делении каждой
суммы квадратов
SS
на соответствующее ей число степеней
свободы.
Таблица 9.1.
Таблица дисперсионного анализа (ANOVA). Основное
разложение
Источник
вариации
Число
степе-
ней
свобо-
ды
Суммы
квадратов
SS
Средние
квадраты
MS
Обуслов-
ленный
регрес-
сией
1
n
i
i
Y
Y
1
2
)
(
MS
105
Продолжение табл. 9.1
Относи-
тельно
регрессии
(остаток)
2
n
n
i
i
i
Y
Y
1
2
)
(
2
2
n
SS
s
Общий,
скоррек-
тирован-
ный
на
среднее
Y
1
n
n
i
i
Y
Y
1
2
)
(
Более общая форма таблицы дисперсионного анализа
получается при добавлении в таблицу корректирующего
фактора для среднего
Y
-в, который называется
)
(
0
b
SS
.Это
название будет пояснено позже
Таблица 9.2
Таблица дисперсионного анализа (ANOVA), включающая
)
(
0
b
SS
Источник
вариа-
ции
Число
степе
ней
свобо-
ды
Суммы квадратов
SS
Средние
квадраты
MS
Обуслов-
ленный
1
0
b
b
Остаток
1
n-2
SS(b
1
/b
0
)=
=
n
i
i
Y
Y
1
2
)
(
n
i
i
i
Y
Y
1
2
)
(
MS
2
s