ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 07.04.2021
Просмотров: 1672
Скачиваний: 36
126
Таблица 9.5
Уро-
вень
X
n
u
j
ju
Y
Y
1
2
)
(
Чис
ло
степ
еней
своб
оды
Уро-
вень
X
n
u
j
ju
Y
Y
1
2
)
(
Число
степе-
ней
свобо-
ды
1,3
0,125
1
4,0
0,240
2
2,0
0,845
1
4,7
0,260
2
3,3
2,000
1
5,3
0,980
2
3,7
2,000
1
6,0
0,020
1
Итого 12,470
11
Теперь полученные данные можно переписать в таблицу 9.6
дисперсионного анализа.
Таблица .9.6
Дисперсионный анализ (демонстрация неадекватности)
Источ-
ник
Чис
ло
степеней
свобо-
ды
Суммы
квадратов
SS
Средние
квадраты
MS
F
-
отношение
Регрессия
1
6,326
6,326
Остаток
22
21,192
2
s
=0,963
Неадекват
-ность
11
8,722
L
MS
=0,793
127
Продолжение табл.9.6
«Чистая»
ошибка
11
12,470
2
e
s
=1,13
4
2
s
MS
F
=6,569
значимо
=0,05
Общий,
скоррек-
тирован-
ный
23
27,518
2
e
L
s
MS
F
=0,699
не значимо
Неадекватность находится как разность
SS
ОСТАТОК
– SS
ЧИТСАЯ ОШИБКА.
Отношение
2
e
L
s
MS
F
=0,699
не значимо, так как оно меньше 1. Поэтому на основе такого
критерия нет оснований сомневаться в адекватности нашей
модели и можно использовать
2
s
=0,963 как оценку для
2
,
чтобы иметь возможность воспользоваться
F
- критерием для
проверки значимости всей регрессии.
F
- критерий
состоятелен, только если нет неадекватности представления
результатов нашей моделью
Итак, в итоге рассмотрим все необходимые действия,
когда наши данные содержат повторные наблюдения.
1) Подобрать модель, составить простую таблицу
дисперсионного анализа с двумя входами: регрессией и
остатком. Но для общей регрессии пока не использовать F -
критерий.
2) Вычислить сумму квадратов, связанную с ―чистой‖
ошибкой, и разложить остаточную сумму квадратов как на
рис. 9.5.
128
3) Применить
F
- критерий для неадекватности. Если
критерий неадекватности не значим, т.е. нет смысла
сомневаться в адекватности модели, то перейти к пункту 4.б.
4.а) Значимая неадекватность. Прекратить анализ
подобранной модели и искать пути ее улучшения методами
анализа остатков. Не применять
F
- критерий для общей
регрессии и не пытаться строить доверительные интервалы.
Если нет адекватности подобранной модели, то не верны
предпосылки, которые лежат в основе этих операций.
4.б) Неадекватность не значима. Снова объединить
суммы квадратов для ‖чистых‖ ошибок и неадекватности в
остаточную сумму квадратов. Использовать остаточный
средний квадрат
2
s
в качестве оценки для
2
)
(
Y
D
,
применить
F
- критерий для общей регрессии, получить
доверительные пределы для истинного среднего значения
Y
,
вычислить
2
R
и т.д.
Заметим, что если модель проходит все барьеры, это еще
не означает, что она правильна, просто нет оснований считать
ее неадекватной имеющимся данным. Если неадекватность
обнаружена, то может понадобиться другая модель, возможно,
квадратичная, вида
2
X
X
Y
.
На рис. 9.4 показаны некоторые ситуации, которые могут
возникнуть, когда прямая строится по данным шаг за шагом.
Влияние повторных опытов на R
2
Мы уже отмечали, что величина
2
R
не может достичь 1,
если есть повторные опыты. Никакая модель не может
изменить вариацию, обусловленную ―чистой‖ ошибкой. В
нашем последнем примере: сумма квадратов, обусловленная
―чистой‖ ошибкой, равна 12,470 при 11 степенях свободы. То,
что модель подогнана к этим данным, не имеет значения, все
равно
величина
12,470
остается
неизменяемой
и
129
необъясняемой. Следовательно, максимум
2
R
, достижимый
при этих данных, есть
общая
обусловл
общая
SS
SS
SS
R
.
2
max
=
518
,
27
470
,
12
518
,
27
=0,5468,
или 54,68 %.
То значение
2
R
, которое фактически достигнуто для
подобранной модели, равно:
R
2
= SS
РЕГР.
/ общаяSS
скор
= 6,326/27,518=0,2299, или 22,99 %,
Иными словами, мы можем объяснить 0,2299/0,5468=0,4202,
или 42,02 % того, что возможно объяснить.
«Чистая» ошибка в многофакторном случае
Полученные формулы для одной переменной применимы
в общем случае для
n
предикторов
,...
,
2
1
X
X
. Но у повторных
опытов должны совпадать все координаты, т.е., например,
следующие четыре отклика для четырех точек
)
,
,
,
(
4
3
2
1
X
X
X
X
=
)
1
,
17
,
2
,
4
(
),
1
,
17
,
2
,
4
(
),
1
,
17
,
2
,
4
(
),
1
,
17
,
2
,
4
(
дают повторные опыты. Однако четыре точки
)
,
,
,
(
4
3
2
1
X
X
X
X
=
)
1
,
19
,
2
,
4
(
),
1
,
18
,
2
,
4
(
),
1
,
17
,
2
,
4
(
),
1
,
16
,
2
,
4
(
уже не дают повторных опытов, поскольку координаты
3
X
во
всех этих случаях различны.
Корреляция между переменными
X
и
Y
и регрессия
Когда мы выдвигали постулат о линейности модели
X
Y
1
0
,
то мы предварительно полагали, что
Y
можно выразить как
функцию 1-го порядка от
X
без учета ошибок.
В
такой
зависимости
X
обычно
предполагается
фиксированным
(неслучайным),
т.е.
не
имеющим
вероятностного распределения,
Y
предполагается случайной
величиной, имеющей распределение вероятностей со средним
X
1
0
и дисперсией
)
(
D
.
130
Рассмотрим две случайные величины
U
и
W
с
некоторым
непрерывным
совместным
двумерным
распределением вероятностей
)
,
(
W
U
f
. Тогда мы определяем
коэффициент корреляции между ними как
)
(
)
(
)
,
cov(
W
D
U
D
W
U
UW
,
где
dUdW
W
U
f
W
М
W
U
М
U
W
U
)
,
(
))
(
))(
(
(
)
,
cov(
,
dUdW
W
U
f
U
М
U
U
D
)
,
(
))
(
(
)
(
2
,
dUdW
W
U
Uf
U
М
)
,
(
)
(
.
Значения
)
(
W
D
и
М(W)
определяются аналогично в терминах
W
. Известно, что
1
1
UW
. Величина
UW
служит мерой
линейной зависимости между случайными величинами
U
и
W
. Если имеется выборка объема
n
из величин
)
,
),...(
,
(
1
1
n
n
W
U
W
U
с совместным распределением, то величина
n
i
i
n
i
i
n
i
i
i
UW
W
W
U
U
W
W
U
U
r
1
2
1
2
1
)
(
)
(
)
)(
(
(9.30)
называется выборочным коэффициентом корреляции между
U
и
W
, оценивает
UW
и представляет собой эмпирическую
меру линейной зависимости между
U
и
W
.
UW
r
лежит между -
1 и +1.
Для нашей регрессионной задачи будем рассматривать
XY
r
. Если корреляция
XY
r
не равна нулю, это значит, что в
нашем множестве данных существует некоторая линейная
зависимость между конкретными значениями
i
X
и
i
Y
при
n
i
,...
2
,
1
. (Мы предполагаем, что
i
X
не подвержены