ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1610

Скачиваний: 34

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

116 

Y

,  и  ее  обычно  называют  множественным  коэффициентом 

корреляции.  Коэффициент 

2

R

 

самое  большее  может 

достигнуть  величины  1  (или  100%),  когда  все  значения 

X

 

различны.  Если  в  данных  имеются повторяющиеся  опыты,  то 
величина 

2

R

  не  может  достигнуть  1,  как  бы  хороша  ни  была 

модель.  Это  объясняется  вариацией  в  данных  из-за  ―чистой‖ 
ошибки опыта (ошибки воспроизводимости). 

 

9.6. Проверка адекватности модели линейной регрессии 

 

Обсудим  методы  анализа  точности  описания  данных  

предложенной 

моделью. 

Рассмотрим, 

что 

такое 

неадекватность и «чистая» ошибка

Построенная  линия  регрессии  –  это  расчетная  линия, 

основанная  на  предположениях.  Эти  предположения  мы 
должны  рассматривать  как  предварительные.  Мы  можем  при 
некоторых  обстоятельствах  (условиях)  проверить,  корректна 
ли 

наша 

модель. 

Мы 

будем 

изучать 

проявления 

предполагаемой некорректности модели.  

Вспомним,  что 

i

i

i

Y

Y

e

  –  остатки  при 

i

X

X

.  Это 

величины, на которые действительные наблюдаемые значения 

i

Y

  отличаются  от 

i

Y

,  вычисленных  по  уравнению.  Было 

показано, что 

0

i

e

. Остатки содержат информацию о том, 

почему  построенная  модель  недостаточно  правильно 
объясняет наблюдаемый разброс зависимой переменной 

Y

.  

Пусть 

)

(

i

i

Y

E

  обозначает  величину  среднего  для 

«истинной» модели при 

i

X

X

. Тогда можем записать 

)

(

)

(

)

(

i

i

i

i

i

i

i

Y

Y

E

Y

Y

E

Y

Y

Y

Y

=

))]

(

(

))

(

(

)

[(

i

i

i

i

i

i

Y

E

Y

E

Y

Y

=

i

i

B

q

где 

))

(

(

)

(

i

i

i

i

i

Y

E

Y

Y

q

)

(

i

i

i

Y

E

B

.  

Величина 

i

B

  –  это  ошибка  смещения  при 

i

X

X

.  Если 

модель верна, то 

i

i

Y

E

)

(

 и 

0

i

B

. Если же модель не верна, 


background image

 

117 

то 

i

i

Y

E

)

(

  и 

0

i

B

,  и  его  значение  зависит  от  «истинной» 

модели и значения 

i

X

.  

Переменная 

i

q

  –  это  случайная  величина,  имеющая 

нулевое среднее, т.к.  

))

(

(

)

(

)

(

i

i

i

i

i

Y

E

Y

Y

E

q

E

=

0

))

(

(

)

(

i

i

i

i

Y

E

Y

E

,  

и  это  верно  независимо  от  того,  будет  ли  модель  правильна, 
т.е. 

i

i

Y

E

)

(

Можно  показать,  что 

i

q

  коррелированны,  и  величина 

2

2

1

...

n

q

q

  имеет  математическое  ожидание,  или  среднее 

значение, 

2

)

2

(

n

,  

где 

)

(

2

i

Y

V

 – дисперсия ошибки.  

Исходя  из  этого,  можно  показать,  что  остаточный  средний 
квадрат, т.е. величина  

n

i

i

i

Y

Y

n

1

2

)

(

2

1

 

имеет  математическое  ожидание,  или  среднее  значение, 

2

если предложенная модель корректна, и  

)

2

(

1

2

2

n

B

n

i

i

если модель не корректна.  

Если  модель  корректна,  т.е. 

0

i

B

,  то  остатки  будут 

коррелированными 

случайными 

отклонениями 

i

q

и 

остаточный  средний  квадрат  можно  использовать  как  оценку 
дисперсии ошибки 

2

.  

Если  модель  не  корректна,  т.е. 

0

i

B

,  то  остатки 

содержат  оба  компонента:  случайный 

i

q

  и  систематический 

i

B

.  Мы  можем  рассматривать  их  как  случайную  ошибку 

разброса и систематическую ошибку смещения. В простейшем 


background image

 

118 

случае  подбора  прямой,  как  правило,  можно  определить 
ошибку  смещения,  непосредственно,  исследуя  график  с 
данными (см. рис. 9.4 а, б, в, г). 

 

 

Рис.9.4 а 

На  рис.9.4  а  представлен  случай  1,  когда  проверяется 

модель 

X

Y

1

0

.  В  этом  случае  нет  неадекватности, 

линейная 

регрессия 

значима, 

используется 

модель 

X

b

b

Y

1

0

 

 

 

Рис.9.4 б 

На  рис.9.4  б  представлен  случай  2,  когда  проверяется 

модель 

X

Y

1

0

.  В  этом  случае  нет  неадекватности, 

линейная 

регрессия 

незначима, 

используется 

модель 

)

(

1

X

X

b

Y

Y

i

i

 

 


background image

 

119 

 

Рис.9.4 в 

На  рис.9.4  в  представлен  случай  3,  когда  проверяется 

модель 

X

Y

1

0

.  В  этом  случае  неадекватность 

значима,  линейная  регрессия  незначима,  следует  проверить 
модель 

2

2

1

0

X

X

Y

 

 

Рис.9.4 г 

На  рис.9.4  г  представлен  случай  4,  когда  проверяется 

модель 

X

Y

1

0

.  В  этом  случае  неадекватность 

значима, следует проверить модель 

2

2

1

0

X

X

Y

Если  модель  более  сложна  или  включает  больше 

переменных,  то  это  невозможно  (т.е.  невозможно  определить 
ошибку  смещения  из  данных).  Если  существует  априорная 
оценка 

2

  (под  «априорной  оценкой»  мы  понимаем  оценку, 

полученную на основе ранее выполненных опытов), то можно 
увидеть  (или  проверить  по 

F

-критерию),  значимо  ли 


background image

 

120 

остаточная  сумма  квадратов  превышает  нашу  априорную 
оценку.  Если  это  так,  то  говорят,  что  имеет  место 
неадекватность и следует пересмотреть модель. 

Если  априорной  оценки  нет 

2

,  но  измерения 

Y

 

повторялись  (два  или  более  раза)  при  одинаковых  значениях 

X

, то мы можем использовать эти повторения для получения 

оценки 

2

.  

Такую  оценку  называют  «чистой»  ошибкой,  потому  что 

если сделать 

X

 одинаковыми для двух наблюдений, то только 

случайные  вариации  могут  влиять  на  результаты  и  создавать 
разброс  между  ними.  Эти  различия  обеспечивают  получение 
оценки 

2

,  которая  более  надежна,  чем  оценки,  получаемые 

из  других  источников.  По  этой  причине  имеет  смысл  ставить 
опыты с повторением. 

Когда  в  данных  содержатся  повторные  опыты,  нужны 

дополнительные  обозначения  для  множества  наблюдений 

Y

 

при одном и том же значении 

X

.  

Пусть мы имеем 

m

 различных значений 

X

 и к 

j

-му из 

этих значений 

i

X

, где 

m

i

,...

2

,

1

, относятся 

j

n

 наблюдений.  

Тогда мы говорим, что  

n

Y

Y

Y

1

12

11

,...

,

 – 

1

n

 повторных наблюдений при 

1

X

n

Y

Y

Y

2

22

21

,...

,

 – 

2

n

 повторных наблюдений при 

2

X

ju

Y

 – 

u

-е наблюдение при 

j

X

j

n

u

,...

2

,

1

mn

m

m

Y

Y

Y

,...

,

2

1

 – 

m

n

 повторных наблюдений при 

m

X

Всего получается 



m

j

n

u

n

1

1

1=

m

j

j

n

1

 наблюдений.  

Вклад  суммы  квадратов,  связанной  с  «чистой»  ошибкой 

для 

1

n

  наблюдений  при 

1

X

,  будет  равен  внутренней  сумме 

квадратов 

u

Y

1

 относительно их среднего 

1

Y

, т.е. 

n

u

n

u

u

u

Y

n

Y

Y

Y

1

2

1

1

1

2

1

2

1

1

)

(

=

n

u

n

u

u

u

n

Y

Y

1

1

2

1

1

2

1

)

(

(9.27)