ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1606

Скачиваний: 34

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

126 

 

                                                                       Таблица 9.5 

 
Уро-
вень 

X

 

 

n

u

j

ju

Y

Y

1

2

)

(

 

Чис
ло 
степ
еней 
своб
оды 

 
Уро-
вень 

X

 

 

n

u

j

ju

Y

Y

1

2

)

(

 

Число 
степе-
ней 
свобо-
ды 

1,3 

0,125 

4,0 

0,240 

2,0 

0,845 

4,7 

0,260 

3,3 

2,000 

5,3 

0,980 

3,7 

2,000 

6,0 

0,020 

 

 

 

Итого  12,470 

11 

 
Теперь  полученные  данные  можно  переписать  в  таблицу  9.6

 

дисперсионного анализа. 
 
 

                                                                         Таблица .9.6 

Дисперсионный анализ (демонстрация неадекватности) 

 
Источ- 
ник 

Чис 
ло 
степеней 
свобо-
ды 

Суммы  
квадратов 

SS

 

Средние  
квадраты 

MS

 

 

F

-

отношение 
 

Регрессия 

6,326 

6,326 

 

Остаток 

22 

21,192 

2

s

=0,963 

 

Неадекват
-ность 

11 

8,722 

L

MS

=0,793 

 

 
 
 
 
 


background image

 

127 

 

 

Продолжение табл.9.6 

«Чистая» 
ошибка 

11 

12,470 

2

e

s

=1,13

2

s

MS

F

=6,569 
 значимо 

=0,05 

Общий, 
скоррек-
тирован-
ный 

 
23 

 
27,518 

 

2

e

L

s

MS

F

=0,699  
не значимо 

 
Неадекватность находится как разность  

SS

ОСТАТОК

 – SS

ЧИТСАЯ ОШИБКА. 

Отношение  

2

e

L

s

MS

F

=0,699 

не  значимо,  так  как  оно  меньше  1.  Поэтому  на  основе  такого 
критерия  нет  оснований  сомневаться  в  адекватности  нашей 
модели  и  можно  использовать 

2

s

=0,963  как  оценку  для 

2

чтобы иметь возможность воспользоваться 

F

-  критерием  для 

проверки  значимости  всей  регрессии. 

F

  -  критерий 

состоятелен,  только  если  нет  неадекватности  представления 
результатов нашей моделью 

Итак,  в  итоге  рассмотрим  все  необходимые  действия, 

когда наши данные содержат повторные наблюдения. 

 
1)  Подобрать  модель,  составить  простую  таблицу 

дисперсионного  анализа  с  двумя  входами:  регрессией  и 
остатком.  Но  для  общей  регрессии  пока  не  использовать  F  - 
критерий. 

 
2)  Вычислить  сумму  квадратов,  связанную  с  ―чистой‖ 

ошибкой,  и  разложить  остаточную  сумму  квадратов  как  на 
рис. 9.5. 

 


background image

 

128 

3)  Применить 

F

  -  критерий  для  неадекватности.  Если 

критерий  неадекватности  не  значим,  т.е.  нет  смысла 
сомневаться в адекватности модели, то перейти к пункту 4.б. 

 
4.а)  Значимая  неадекватность.  Прекратить  анализ 

подобранной  модели  и  искать  пути  ее  улучшения  методами 
анализа  остатков.  Не  применять 

F

  -  критерий  для  общей 

регрессии  и  не  пытаться  строить  доверительные  интервалы. 
Если  нет  адекватности  подобранной  модели,  то  не  верны 
предпосылки, которые лежат в основе этих операций. 

 
4.б)  Неадекватность  не  значима.  Снова  объединить 

суммы  квадратов  для  ‖чистых‖  ошибок  и  неадекватности  в 
остаточную  сумму  квадратов.  Использовать  остаточный 
средний  квадрат 

2

s

  в  качестве  оценки  для 

2

)

(

Y

D

применить 

F

  -  критерий  для  общей  регрессии,  получить 

доверительные  пределы  для  истинного  среднего  значения 

Y

вычислить 

2

R

 и т.д. 

Заметим, что если модель проходит все барьеры, это еще 

не означает, что она правильна, просто нет оснований считать 
ее  неадекватной  имеющимся  данным.  Если  неадекватность 
обнаружена, то может понадобиться другая модель, возможно, 
квадратичная, вида 

2

X

X

Y

На рис. 9.4 показаны некоторые ситуации, которые могут 

возникнуть, когда прямая строится по данным шаг за шагом. 

 

Влияние повторных  опытов на R

2

 

Мы уже отмечали, что величина 

2

R

 не может достичь 1, 

если  есть  повторные  опыты.  Никакая  модель  не  может 
изменить  вариацию,  обусловленную  ―чистой‖  ошибкой.  В 
нашем  последнем  примере:  сумма  квадратов,  обусловленная 
―чистой‖ ошибкой, равна 12,470 при 11 степенях свободы. То, 
что модель подогнана к этим данным, не имеет значения, все 
равно 

величина 

12,470 

остается 

неизменяемой 

и 


background image

 

129 

необъясняемой.  Следовательно,  максимум 

2

R

,  достижимый 

при этих данных, есть 

общая

обусловл

общая

SS

SS

SS

R

.

2

max

=

518

,

27

470

,

12

518

,

27

=0,5468, 

или 54,68 %.  
То  значение 

2

R

,  которое  фактически  достигнуто  для 

подобранной модели, равно: 
R

2

 = SS 

РЕГР. 

/ общаяSS 

скор  

= 6,326/27,518=0,2299, или 22,99 %,  

Иными  словами,  мы  можем  объяснить  0,2299/0,5468=0,4202, 
или 42,02 % того, что возможно объяснить. 
 

«Чистая» ошибка в многофакторном случае 

Полученные формулы для одной переменной применимы 

в общем случае для 

n

 предикторов 

,...

,

2

1

X

X

. Но у повторных 

опытов  должны  совпадать  все  координаты,  т.е.,  например, 
следующие четыре отклика для четырех точек 

)

,

,

,

(

4

3

2

1

X

X

X

X

=

)

1

,

17

,

2

,

4

(

),

1

,

17

,

2

,

4

(

),

1

,

17

,

2

,

4

(

),

1

,

17

,

2

,

4

(

  

дают повторные опыты. Однако четыре точки 

)

,

,

,

(

4

3

2

1

X

X

X

X

=

)

1

,

19

,

2

,

4

(

),

1

,

18

,

2

,

4

(

),

1

,

17

,

2

,

4

(

),

1

,

16

,

2

,

4

(

  

уже не дают повторных опытов, поскольку координаты 

3

X

 во 

всех этих случаях различны. 
 

Корреляция между переменными 

X

 и 

Y

 и регрессия 

 

Когда мы выдвигали постулат о линейности модели  

X

Y

1

0

то  мы  предварительно  полагали,  что 

Y

  можно  выразить  как 

функцию 1-го порядка от 

X

 без учета ошибок.  

В 

такой 

зависимости 

X

 

обычно 

предполагается 

фиксированным 

(неслучайным), 

т.е. 

не 

имеющим 

вероятностного  распределения, 

Y

  предполагается  случайной 

величиной, имеющей распределение вероятностей со средним 

X

1

0

 и дисперсией 

)

(

D


background image

 

130 

Рассмотрим  две  случайные  величины 

U

  и 

W

  с 

некоторым 

непрерывным 

совместным 

двумерным 

распределением вероятностей 

)

,

(

W

U

f

. Тогда мы определяем 

коэффициент корреляции между ними как  

)

(

)

(

)

,

cov(

W

D

U

D

W

U

UW

где 

 





dUdW

W

U

f

W

М

W

U

М

U

W

U

)

,

(

))

(

))(

(

(

)

,

cov(

 





dUdW

W

U

f

U

М

U

U

D

)

,

(

))

(

(

)

(

2

 





dUdW

W

U

Uf

U

М

)

,

(

)

(

Значения 

)

(

W

D

 и 

М(W)

 определяются аналогично в терминах 

W

. Известно, что 

1

1

UW

. Величина 

UW

  служит  мерой 

линейной  зависимости  между  случайными  величинами 

U

  и 

W

.  Если  имеется  выборка  объема 

n

 

из  величин 

)

,

),...(

,

(

1

1

n

n

W

U

W

U

 с совместным распределением, то величина 

n

i

i

n

i

i

n

i

i

i

UW

W

W

U

U

W

W

U

U

r

1

2

1

2

1

)

(

)

(

)

)(

(

                  (9.30) 

называется  выборочным  коэффициентом  корреляции  между 

U

  и 

W

, оценивает 

UW

  и  представляет  собой  эмпирическую 

меру линейной зависимости между 

U

 и 

W

UW

r

 лежит между -

1 и +1.  

Для  нашей  регрессионной  задачи  будем  рассматривать 

XY

r

.  Если  корреляция 

XY

r

  не  равна  нулю,  это  значит,  что  в 

нашем  множестве  данных  существует  некоторая  линейная 
зависимость  между  конкретными  значениями 

i

X

  и 

i

Y

  при 

n

i

,...

2

,

1

.  (Мы  предполагаем,  что 

i

X

  не  подвержены