ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 07.04.2021

Просмотров: 1618

Скачиваний: 34

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

86 

В  20-е  годы  сложилось  новое  направление  в  экономике  – 
эконометрия. Она взяла на вооружение регрессионные методы, 
что  способствовало  их  распространению.  Другой  толчок 
произошел  в  связи  с  развитием  способов  измерения 
психических свойств личности, имевших большое значение не 
только  для  психологии,  но  и  для  тесно  связанных  с  нею 
педагогики,  социологии  и  медицины.  Лишь  вторая  мировая 
война  и  особенно  послевоенное  время  привели  к 
широчайшему  внедрению  регрессии  во  все  области  научных 
исследований,  экономического  анализа  и  промышленного 
производства. 

В 

данном 

случае 

решающую 

роль 

сыграла 

вычислительная  техника.  Появление  в  50-е  годы  массового 
производства  ЭВМ  привело  к  регрессионному  буму.  Сейчас 
наступил  новый  этап  развития  вычислительной  техники. 
Появились 

персональные 

компьютеры. 

Повышение 

быстродействия, 

увеличение 

памяти 

и 

удешевление 

компьютеров,  а  также  значительный  прогресс  в  сервисных 
устройствах  вызвали  к  жизни  новые  подходы  к  анализу 
данных, основанные на применении вычислительной техники. 
Это 

прежде 

всего 

относится 

к 

имитационному 

моделированию, предложенному Т. Нейлором и Р.Шенноном. 
Все  эти  методы  обогатили  регрессионный  анализ.  С  другой 
стороны,  сама  регрессионная  модель  выступает  теперь  в 
качестве  инструмента,  связывающего  эти  методы  в  нечто 
целостное. 

В  анализе  экспериментальных  данных  используется 

дисперсионный 

анализ. 

Дисперсионный 

анализ 

– 

статистический  метод,  предназначенный  для  выявления 
влияния  отдельных  факторов  на  результат  эксперимента,  а 
также  для  последующего  планирования  аналогичных 
экспериментов.  Дисперсионный  анализ  первоначально  был 
предложен  Р.  Фишером  в  1925  году.  Он  сделал  обработку 
результатов  агрономических  опытов,  чтобы  определить 
условия, 

при 

которых 

испытываемый 

сорт 

сельскохозяйственной культуры даст максимальный урожай.  


background image

 

87 

 

9.1 Модель линейной регрессии. Метод наименьших 

квадратов

 

 

Мы  рассматривали  до  сих  пор  статистические  выводы 

для 

моделей, 

которые 

соответствовали 

повторным 

независимым  наблюдениям  над  некоторой  случайной 
величиной 

. Исходные статистические данные в этих случаях 

представляют 

собой 

реализацию 

случайного 

вектора 

X

=(X

1

,...,X

n

),  компоненты  которого  независимы  и  одинаково 

распределены,  а  именно 

F

F

X

i

,  i=1,...,n.  Однако,  на 

практике,  предположение  о  независимости  и  одинаковой 
распределенности компонент X

i

 не всегда выполняется. В этих 

случаях используют линейную регрессионную модель, В этой 
модели

 

предполагается, 

что 

математические 

ожидания 

наблюдений  X

i

  являются  линейными  функциями 

i

(

)  от 

неизвестных 

параметров 

=(

1

,...,

k

и 

делаются 

предположения о вторых моментах. 

Пусть  производится  n  опытов,  на  результат  которых 

оказывают  влияние  неслучайные  переменные  -  факторы  - 

z

=(z

1

,...,z

k

).  Значения  этих  факторов  меняются  от  опыта  к 

опыту. Результат i-го опыта можно представить в виде: 

X

z

i

i T

i

( )

 

, i=1,...,n 

где 

i

  -  погрешность  измерения  некоторой  случайной 

величины  или  ошибка; 

z

(i)

  -  вектор-столбец  факторов  в  i-ом 

опыте. 

Предполагаем, что математическое ожидание  M

i

=0, т.е. 

отсутствуют  систематические  ошибки  и  распределение 
«ошибок» 

i

  от  параметров 

  не  зависит.  Введем  матрицу 

плана  

Z

z

z

n

( )

( )

...

1

 

размером  k×n,  составленную  из  вектор-столбцов   

z

z

n

( )

( )

...

1

,  и 

вектор  ошибок 

=(

1

,...,

n

).  В  матричных  обозначениях 

предыдущее равенство принимает вид: 


background image

 

88 

 

X Z

T

 

,  М(

)=0.                                            (9.1) 

Предполагают, что случайные величины 

1

,...,

n

 (или, что 

то же самое, X

1

,...,X

n

) не коррелированы и имеют одинаковые 

дисперсии:  Dx

i

  =  D

i

  = 

2

>0,  i=1,...,n,    где 

2

,  обычно 

неизвестно.  В  этом  случае  матрица  вторых  моментов  вектора 
наблюдений 

X

 имеет вид: 

D(

X

)=D(

)=M(

T

)=

K

i

j

i

j

i j

n

i j

 

2

0

1

,

,

,

,...,

.    (9.2) 

Если  выполняются  условия  (9.1)-(9.2),  то  имеет  место  модель 

линейной 

регрессии

Параметры 

1

,...,

k

 

называют 

коэффициентами  регрессии

,  а 

2

  - 

остаточной  дисперсией.

 

Важную роль играет матрица  

A=ZZ

T

       

 

    (9.3) 

Предполагается, что  rank Z=k, т.е. строки матрицы А линейно 
независимы.  Предполагается  также,  что  матрица  А 
невырождена  (det A

0 или |А|

0). 

Общим 

методом 

оценивания 

неизвестных 

коэффициентов 

регрессии 

1

,...,

k

 

является 

метод 

наименьших  квадратов

,  разработанный  К.  Гауссом  и, 

независимо от него, Лежандром примерно в 1795—1803 гг. 

В соответствии с этим методом оценки этих параметров 

находят  из  условия  обращения  в  минимум  квадратичной 
формы 

S (

) =S(X;

) =(X-Z

T

)

T

(X-Z

T

),                        (9.4) 

представляющей  собой  сумму  квадратов  разностей  между 
наблюдениями и их математическими ожиданиями. 
Точку 

b

=(b

1

,...,b

k

), 

удовлетворяющую 

равенству 

S b

S

( ) min ( )

,  называют,  по  определению, 

оценкой 

наименьших квадратов 

(о.н.к.) параметра 

=(

1

,...,

k

). 


background image

 

89 

Пусть  Y=ZX;  тогда  с  помощью  непосредственных 

вычислений  можно  убедиться,  что  система  уравнений  

 



S

i

( )

0

,   i=1,...,k, в матричной форме записывается в виде: 

A

=Y,                                                                 (9.5) 

где матрица А задана в (9.3). 
     Это  уравнение  для  экстремальных  точек 

  называют 

нормальным  уравнением

  метода  наименьших  квадратов. 

Справедлива следующая теорема. 

Теорема.  Пусть 

*

  -  любое  решение  нормального 

уравнения. Тогда  

min ( )

S

=S(

*

и,  следовательно,  этот  минимум  одинаков  для  всех 

*

.  Если 

det A

0, то оценка наименьших квадратов (о.н.к.) единственна 

и определяется равенством: 

b=

*

=A

-1

Y= A

-1

ZX.                              (9.6) 

Примем без доказательства. 

Интерес  представляют  не  сами  параметры 

1

,...,

k

,  а  их 

некоторые линейные комбинации, т.е. новый параметрический 
вектор 

t

=(t

1

,...,t

m

), m

k, связанный с 

  соотношением 

t

=T

где  Т  -  заданная  матрица  размером  m×n.  В  этом  случае  о.н.к. 

t

*

  для 

t

  определяется  равенством 

t

*

*

,  где 

*

  -  любое 

решение нормального уравнения (9.5). Если det A

0, то из (9.6) 

следует, что 

t

*

 определяется однозначно и имеет вид 

t

*

=TA

-1

Y=TA

-1

ZX.                                  (9.7) 

 

9.2. Свойства оценок наименьших квадратов 

 

Свойства  оценок  наименьших  квадратов  определяется 

следующей теоремой. 


background image

 

90 

Теорема.  Пусть  матрица  А  не  вырождена.  Тогда  для 

произвольного  вектора 

t

=T

  о.н.к. 

t

*

,  определенная 

равенством 

(9.7) 

является 

несмещенной 

оценкой 

с 

минимальной 

дисперсией 

в 

классе 

всех 

линейных 

несмещенных  оценок  t;  при  этом  матрица  вторых  моментов 
случайного вектора 

t

*

 имеет вид: 

D (

t

*

)=

2

TA

-1

T

T



2

D.                                        (9.8) 

Из этой теоремы видно, что  

1.

  Оценка  несмещенная,  т.е.  подставляя  (9.1)  в  (9.7) 

имеем: 

t

*

=TA

-1

Z(Z

T

+

)=TA

-1

(ZZ

T

)

+ TA

-1

Z

= T

+ TA

-1

Z

Находим математическое ожидание: 
M [

t

*

] = M[T

]+ M[TA

-1

Z

], 

но  М

=0,  отсюда  M[

t

*

]=t,  т.е. 

t

*

  -  линейная  несмещенная 

оценка t. 

Пусть  I=

L

X  -  произвольная  линейная  несмещенная 

оценка t, т.е. 

M [I]=

L

M[X]=

L

Z

T

= T

Это  равенство  должно  выполняться  для  всех 

,  поэтому 

отсюда следует, что  

L

Z

T

=T .                                                            (**) 

Из (9.2) находим  

D(I)=

L

D(X)

L

T

=

2

LL

T

 .                                         (*) 

Наша  цель  -  минимизировать  диагональные  элементы 

матрицы 

LL

T

, т.е. дисперсии оценок l

1

,...,l

m

. Для этого запишем 

тождество  

LL

T

=(TA

-1

Z)(TA

-1

Z)

T

+(

L-

TA

-1

Z)(

L-

TA

-1

Z)

T

которое  непосредственно  следует  из  равенства  (**).  Каждое 
слагаемое  правой  части  тождества  имеет  вид  HH

T

,  откуда 

следует  неотрицательность  диагональных  элементов.  Но  от 

L

 

зависит  только  второе  слагаемое,  поэтому  диагональные 
элементы  D(I)  одновременно  достигают  минимума  тогда  и 
только  тогда,  когда 

L=

TA

-1

Z.  Соответствующая  оптимальная