ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 24.10.2023
Просмотров: 327
Скачиваний: 6
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
i
=
b
i
m
b
i
,
(i = 1, 2, . . ., m), t
a
=
a
m
a
.
Здесь m
b
i
, m
a
— стандартные ошибки параметров уравнения регрессии.
Стандартные ошибки параметров уравнения множественной регрессии опре- деляются соотношениями:
m
b
i
=
√
S
2
ocт
⋅
[(X
′
⋅ X
)
−1
]
ii
,
(i = 0, 1, 2, . . ., m),
2.6 Анализ качества эмпирического уравнения регрессии
41
где
[(X
′
⋅ X
)
−1
]
ii
— элемент (ii) матрицы
(X
′
⋅ X
)
−1
. Значение i = 0 соответствует но- меру элемента матрицы
(X
′
⋅ X
)
−1
для вычисления стандартной ошибки парамет- ра a.
S
2
ocт
=
n
∑
i=1
(y
i
−
̂y
x
i
)
2
n − m − 1
— несмещенная оценка остаточной дисперсии.
Формулируется «нулевая» гипотеза о статистической незначимости парамет- ров уравнения регрессии H
0
: b
i
=
0 или H
0
: a = 0. Если для анализируемого па- раметра регрессии выполняется условие t > t
тaбл
(α; n − m − 1), то он считается статистически значимым и «нулевая» гипотеза отвергается.
t-критерий Стьюдента применяется в процедуре принятия решения о целесо- образности включения фактора в модель. Если коэффициент при факторе в уравне- нии регрессии оказывается незначимым, то включать данный фактор в модель не рекомендуется. Отметим, что это правило не является абсолютным и бывают ситу- ации, когда включение в модель статистически незначимого фактора определяется экономической целесообразностью.
Доверительные интервалы для параметров b
i
уравнения линейной множествен- ной регрессии указывают границы, в которых с заданной долей вероятности на- ходятся значения соответствующих параметров и определяются соотношениями:
b
i
− t
(α, n − m − 1) ⋅ m
b
i
<
b
i
<
b
i
+ t
(α, n − m − 1) ⋅ m
b
i
;
a − t
(α, n − m − 1) ⋅ m
a
<
a < a + t
(α, n − m − 1) ⋅ m
a
.
Величина t
(α; n − m − 1) представляет собой табличное значение t-критерия
Стьюдента на уровне значимости
α при степени свободы n − m − 1. Оцениваемый параметр значим, если в границы доверительного интервала не попадает нуль.
2.6.2 Оценка статистической значимости уравнения множественной регрессии
Общее качество уравнения множественной регрессии можно проверить с по- мощью показателя множественной детерминации R
2
, который в общем случае рас- считывается по формуле:
R
2
=
1 −
n
∑
i=1
(y
i
−
̂y
x
i
)
2
n
∑
i=1
(y
i
− y
)
2
.
Коэффициент детерминации R
2
принимает значения в диапазоне от нуля до единицы 0 ⩽ R
2
⩽
1 и показывает, какая часть дисперсии результативного призна- ка y объяснена уравнением регрессии. Чем выше значение R
2
, тем лучше данная модель согласуется с данными наблюдений. Однако величина R
2
, как правило, уве- личивается при добавлении объясняющей переменной к уравнению регрессии, так как при этом уменьшается величина остаточной дисперсии. Это происходит даже при слабой связи факторов с результатом. Чтобы скомпенсировать это увеличение и получить несмещенные оценки при расчете коэффициента детерминации, в чис- лителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы. Вводится скорректированный коэффициент детерминации:
42
Глава 2. Множественная линейная регрессия
R
2
=
1 −
n
∑
i=1
(y
i
−
̂y
x
i
)
2
n
∑
i=1
(y
i
− y
)
2
⋅
n − 1
n − m − 1
.
Соотношение может быть представлено следующим выражением:
R
2
=
1 −
(1 − R
2
) ⋅
n − 1
n − m − 1
=
R
2
−
m
n − m − 1
⋅
(1 − R
2
).
Скорректированный коэффициент детерминации применяется для решения двух задач: оценки реальной тесноты связи между результатом и факторами и срав- нения моделей с разным числом параметров. В первом случае обращают внимание на близость скорректированного и нескорректированного коэффициентов детерми- нации. Если эти показатели велики и различаются незначительно, модель считает- ся хорошей.
При сравнении разных моделей предпочтение при прочих равных условиях отдается той, у которой больше скорректированный коэффициент детерминации.
Этот факт может использоваться при отборе факторов в модель. Добавление в мо- дель новых факторов осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Для оценки тесноты связи факторов с исследуемым признаком, задаваемой по- строенным уравнением регрессии y = f
(x
1
, x
2
. . ., x
m
)+ε, используется коэффициент множественной корреляции R:
R =
√
R
2
=
¿
Á
Á
Á
À1 −
S
2
ocт
S
2
y
=
¿
Á
Á
Á
Á
Á
Á
Á
À
1 −
n
∑
i=1
(y
i
−
̂y
x
i
)
2
n
∑
i=1
(y
i
− y
)
2
.
Коэффициент множественной корреляции R принимает значения в диапазоне
0 ⩽ R ⩽ 1. Чем ближе величина R к единице, тем лучше зависимость
̂y = f (x
1
, x
2
, . . .,
x
m
) согласуется с данными наблюдений. При R = 1 (R
2
=
1
) связь становится функциональной, т. е. соотношение
̂y = f (x
1
, x
2
, . . ., x
m
) точно выполняется для всех наблюдений. Коэффициент множественной корреляции может использоваться как характеристика качества построенного уравнения регрессии
̂y = f (x
1
, x
2
, . . ., x
m
),
точности построенной модели. При правильном включении факторов в регресси- онную модель должно выполняться соотношение R > max
(r
yx
), то есть величина коэффициента множественной корреляции должна существенно отличаться от мак- симального парного коэффициента корреляции. Если же дополнительно включен- ные в уравнение множественной регрессии факторы третьестепенны, то коэффи- циент множественной корреляции может практически совпадать с коэффициентом парной корреляции (различия в третьем, четвертом знаках). Отсюда ясно, что срав- нивая коэффициенты множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного фактора.
В случае линейной зависимости коэффициент корреляции R связан с парными коэффициентами корреляции r
yx
соотношением:
R =
¿
Á
Á
À
m
∑
i=1
β
i
⋅ r
yx
i
,
2.6 Анализ качества эмпирического уравнения регрессии
43
где
β
i
— стандартизованные коэффициенты регрессии:
t
y
=
β
1
⋅ t
x
1
+ β
2
⋅ t
x
2
+ . . . + β
m
⋅ t
x
m
+ ε.
Значимость уравнения множественной регрессии в целом (а также коэффици- ента детерминации R
2
) оценивается с помощью F-критерия Фишера:
F =
S
2
фaкт
S
2
ocт
=
R
2 1 − R
2
⋅
n − m − 1
m
,
где S
2
фaкт
— факторная сумма квадратов на одну степень свободы; S
2
ocт
— остаточ- ная сумма квадратов на одну степень свободы; R
2
— коэффициент множественной детерминации; m — число параметров при переменных x (в линейной регрессии совпадает с числом включенных в модель факторов); n — число наблюдений.
Согласно F-критерию Фишера выдвигаемая «нулевая» гипотеза H
0
о статисти- ческой незначимости уравнения регрессии отвергается при выполнении условия
F > F
тaбл
, где F
тaбл определяется по таблицам F-критерия Фишера по двум степе- ням свободы k
1
=
m, k
2
=
(n − m − 1) и заданному уровню значимости α.
Во множественном регрессионном анализе оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, во- шедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факто- ров они могут вводиться в модель в разной последовательности. Ввиду корреля- ции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Мерой для оценки включения фактора в модель служит частный F-критерий (F
x
i
).
В общем виде для фактора x
i
частный F-критерий определяется следующим выражением:
F
x
i
=
R
2
yx
1
x
2
. . .x
m
− R
2
yx
1
. . .x
i−1
x
i+1
. . .x
m
1 − R
2
yx
1
x
2
. . .x
m
⋅
n − m − 1 1
,
где R
2
yx
1
x
2
. . .x
m
— коэффициент множественной детерминации для модели с полным набором факторов; R
2
yx
1
. . .x
i−1
x
i+1
. . .x
m
— тот же показатель, но без включения в модель фактора x
i
; n — число наблюдений; m — число параметров в модели (без свободного члена).
Для модели с двумя факторами частные F-критерии вычисляются по формулам:
F
x
1
=
R
2
yx
1
x
2
− r
2
yx
2 1 − R
2
yx
1
x
2
⋅
(n − 3); F
x
2
=
R
2
yx
1
x
2
− r
2
yx
1 1 − R
2
yx
1
x
2
⋅
(n − 3).
С помощью частного F-критерия можно проверить значимость всех коэффи- циентов регрессии в предположении, что каждый соответствующий фактор x
i
вво- дился в уравнение множественной регрессии последним.
Фактическое значение частного F-критерия сравнивается с табличным при уровне значимости
α и степенях свободы k
1
=
1, k
2
=
n − m − 1. Если для фактора x
i
выполняется условие F
x
i
>
F
тaбл
, то дополнительное включение фактора x
i
в мо- дель статистически оправданно и коэффициент чистой регрессии b
i
при факторе x
i
44
Глава 2. Множественная линейная регрессия
статистически значим. Если же фактическое значение F
x
i
меньше табличного, то дополнительное включение в модель фактора x
i
не увеличивает существенно долю объясненной вариации признака y, следовательно, нецелесообразно его включение в модель; коэффициент регрессии при данном факторе в этом случае статистиче- ски незначим.
Пример 2.3
Оценим качество уравнения, полученного в примере 2.2.
̂y = −1,487 + 0,3005 ⋅ x
1
+
(−0,445) ⋅ x
2
.
При вычислении используем данные вспомогательной таблицы 2.4.
1. Оценим тесноту связи факторов с исследуемым признаком. Для этого вы- числим парные коэффициенты корреляции и коэффициент множественной корре- ляции.
r
yx
1
=
y ⋅ x
1
− y ⋅ x
1
σ
y
⋅ σ
x
1
=
2341,3 − 23,9 ⋅ 96,7 3,7 ⋅ 9,96
=
0,819;
r
yx
2
=
y ⋅ x
2
− y ⋅ x
2
σ
y
⋅ σ
x
2
=
194,25 − 23,9 ⋅ 8,24 3,7 ⋅ 2,34
= −0,3099;
r
x
1
x
2
=
x
1
⋅ x
2
− x
1
⋅ x
2
σ
x
1
⋅ σ
x
2
=
796 − 96,7 ⋅ 8,24 9,96 ⋅ 2,34
= −0,035;
R
yx
1
x
2
=
¿
Á
Á
À1
−
σ
2
ocт
σ
2
y
=
√
1 −
3,43 13,6
=
0,866.
Значения парных коэффициентов корреляции указывают на достаточно тесную связь доходов от продажи продукции y с постоянными затратами на ее производ- ство x
1
и на умеренную связь с объемом выпуска продукции x
2
. В то же время межфакторная связь r
x
1
x
2
слабая (r
x
1
x
2
=
∣−0,035∣ < 0,7), что говорит о том, что оба фактора являются информативными, т. е. и x
1
, и x
2
необходимо включить в модель.
2. Выполним оценку коэффициента множественной детерминации.
Коэффициент множественной детерминации (R
2
yx
1
x
2
) как квадрат совокупного коэффициента множественной корреляции равен 0,7496. Следовательно, 74,96%
вариации результата объясняется вариацией представленных в уравнении признаков.
3. Выполним оценку частных коэффициентов корреляции.
r
yx
1
⋅x
2
=
r
yx
1
− r
yx
2
⋅ r
x
1
x
2
√
(1 − r
2
yx
2
) ⋅ (1 − r
2
x
1
x
2
)
=
0,819 − 0,3099 ⋅ 0,0346
√
(1 − 0,096) ⋅ (1 − 0,0012)
=
0,85;
r
yx
2
⋅x
1
=
r
yx
2
− r
yx
1
⋅ r
x
1
x
2
√
(1 − r
2
yx
1
) ⋅ (1 − r
2
x
1
x
2
)
=
−0,3099 + 0,8186 ⋅ 0,0346
√
(1 − 0,67) ⋅ (1 − 0,0012)
= −0,49.
То есть можно сделать вывод, что фактор x
1
оказывает более сильное влияние на результат, чем фактор x
2 4. Оценим надежность уравнения регрессии в целом с помощью F-критерия
Фишера.
Контрольные вопросы по главе 2
45
Вычислим фактическое значение F-критерия:
F
фaкт
=
R
2 1 − R
2
⋅
n − m − 1
m
=
0,7496 1 − 0,7496
⋅
10 − 2 − 1 2
=
10,48.
Табличное значение F-критерия при уровне значимости
α = 0,05 и степенях свободы k
1
=
2, k
2
=
10 − 2 − 1 = 7 равно 4,74. Так как F
фaкт
=
10,48 > F
тaбл
=
4,74, то уравнение признается статистически значимым.
5. Оценим целесообразность включения фактора x
1
после фактора x
2
и x
2
после
x
1
с помощью частного F-критерия Фишера:
F
x
1
=
R
2
yx
1
x
2
− r
2
yx
2 1 − R
2
yx
1
x
2
⋅
(n − 3) =
0,7496 − 0,096 1 − 0,7496
⋅ 7 = 18,266;
F
x
2
=
R
2
yx
1
x
2
− r
2
yx
1 1 − R
2
yx
1
x
2
⋅
(n − 3) =
0,7496 − 0,67 1 − 0,7496
⋅ 7 = 2,2187.
Табличное значение F-критерия при уровне значимости
α = 0,05 и степенях свободы k
1
=
1, k
2
=
10 − 2 − 1 = 7 равно 5,59. Так как F
x
1
=
18,266 > F
тaбл
=
=
5,59, то включение фактора x
1
в модель статистически оправдано и коэффициент чистой регрессии b
1
статистически значим. Для фактора x
2
выполняется условие
F
x
2
=
2,2187 < F
тaбл
=
5,59, что говорит о нецелесообразности включения в модель фактора x
2
, после того, как уже введен фактор x
1
Контрольные вопросы по главе 2 1. Дайте определение множественной линейной регрессионной модели. Дай- те краткую характеристику ее элементов.
2. В чем отличие целей построения модели парной регрессии и модели мно- жественной регрессии?
3. Каким требованиям должны отвечать факторы модели множественной ре- грессии?
4. Что такое мультиколлинеарность факторов и как ее выявить?
5. Назовите основные алгоритмы построения модели множественной линей- ной регрессии.
6. Каковы свойства стандартизованных коэффициентов регрессии?
7. Как связаны между собой коэффициенты «чистой» регрессии и регрессии в стандартизованном масштабе?
8. В чем заключается смысл расчета скорректированного индекса корреляции и какова связь его с индексом корреляции при различном числе вводимых в модель факторов?
9. Какой критерий используется для оценки значимости коэффициентов ре- грессии?
10. Для чего используется частный F-критерий?
Глава 3
ГЕТЕРОСКЕДАСТИЧНОСТЬ
И АВТОКОРРЕЛЯЦИЯ ОСТАТКОВ
3.1 Предпосылки МНК
В задачу практического регрессионного анализа входит получение качествен- ных оценок параметров уравнения регрессии. Качество оценок параметров опре- деляется свойствами: несмещенность, состоятельность и эффективность.
Несмещенность оценки параметра означает, что ее математическое ожидание равно оцениваемому параметру:
M
(b
j
) = b
гeн
j
,
где b
j
— оценка параметра; b
гeн
j
— значение параметра в генеральной совокупности.
Оценка параметра является эффективной, если она имеет наименьшую дис- персию среди всех несмещенных оценок данного параметра по выборкам одного и того же объема:
M
(b
j
− b
гeн
j
)
2
=
σ
2
b
j
=
min
σ
2
b
j
.
Оценка параметра является состоятельной, если с увеличением числа наблю- дений оценка параметра стремится к ее значению в генеральной совокупности.
Перечисленные свойства оценок параметров имеют чрезвычайно важное прак- тическое значение в использовании результатов регрессии и обязательно учитыва- ются при разных способах оценивания. МНК строит оценки регрессионной модели на основе минимизации суммы квадратов остатков, поэтому их свойства напрямую зависят от свойств случайной составляющей
ε.
В модели
y = f
(x
1
, x
2
, . . ., x
m
) + ε
=
b
i
m
b
i
,
(i = 1, 2, . . ., m), t
a
=
a
m
a
.
Здесь m
b
i
, m
a
— стандартные ошибки параметров уравнения регрессии.
Стандартные ошибки параметров уравнения множественной регрессии опре- деляются соотношениями:
m
b
i
=
√
S
2
ocт
⋅
[(X
′
⋅ X
)
−1
]
ii
,
(i = 0, 1, 2, . . ., m),
2.6 Анализ качества эмпирического уравнения регрессии
41
где
[(X
′
⋅ X
)
−1
]
ii
— элемент (ii) матрицы
(X
′
⋅ X
)
−1
. Значение i = 0 соответствует но- меру элемента матрицы
(X
′
⋅ X
)
−1
для вычисления стандартной ошибки парамет- ра a.
S
2
ocт
=
n
∑
i=1
(y
i
−
̂y
x
i
)
2
n − m − 1
— несмещенная оценка остаточной дисперсии.
Формулируется «нулевая» гипотеза о статистической незначимости парамет- ров уравнения регрессии H
0
: b
i
=
0 или H
0
: a = 0. Если для анализируемого па- раметра регрессии выполняется условие t > t
тaбл
(α; n − m − 1), то он считается статистически значимым и «нулевая» гипотеза отвергается.
t-критерий Стьюдента применяется в процедуре принятия решения о целесо- образности включения фактора в модель. Если коэффициент при факторе в уравне- нии регрессии оказывается незначимым, то включать данный фактор в модель не рекомендуется. Отметим, что это правило не является абсолютным и бывают ситу- ации, когда включение в модель статистически незначимого фактора определяется экономической целесообразностью.
Доверительные интервалы для параметров b
i
уравнения линейной множествен- ной регрессии указывают границы, в которых с заданной долей вероятности на- ходятся значения соответствующих параметров и определяются соотношениями:
b
i
− t
(α, n − m − 1) ⋅ m
b
i
<
b
i
<
b
i
+ t
(α, n − m − 1) ⋅ m
b
i
;
a − t
(α, n − m − 1) ⋅ m
a
<
a < a + t
(α, n − m − 1) ⋅ m
a
.
Величина t
(α; n − m − 1) представляет собой табличное значение t-критерия
Стьюдента на уровне значимости
α при степени свободы n − m − 1. Оцениваемый параметр значим, если в границы доверительного интервала не попадает нуль.
2.6.2 Оценка статистической значимости уравнения множественной регрессии
Общее качество уравнения множественной регрессии можно проверить с по- мощью показателя множественной детерминации R
2
, который в общем случае рас- считывается по формуле:
R
2
=
1 −
n
∑
i=1
(y
i
−
̂y
x
i
)
2
n
∑
i=1
(y
i
− y
)
2
.
Коэффициент детерминации R
2
принимает значения в диапазоне от нуля до единицы 0 ⩽ R
2
⩽
1 и показывает, какая часть дисперсии результативного призна- ка y объяснена уравнением регрессии. Чем выше значение R
2
, тем лучше данная модель согласуется с данными наблюдений. Однако величина R
2
, как правило, уве- личивается при добавлении объясняющей переменной к уравнению регрессии, так как при этом уменьшается величина остаточной дисперсии. Это происходит даже при слабой связи факторов с результатом. Чтобы скомпенсировать это увеличение и получить несмещенные оценки при расчете коэффициента детерминации, в чис- лителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы. Вводится скорректированный коэффициент детерминации:
42
Глава 2. Множественная линейная регрессия
R
2
=
1 −
n
∑
i=1
(y
i
−
̂y
x
i
)
2
n
∑
i=1
(y
i
− y
)
2
⋅
n − 1
n − m − 1
.
Соотношение может быть представлено следующим выражением:
R
2
=
1 −
(1 − R
2
) ⋅
n − 1
n − m − 1
=
R
2
−
m
n − m − 1
⋅
(1 − R
2
).
Скорректированный коэффициент детерминации применяется для решения двух задач: оценки реальной тесноты связи между результатом и факторами и срав- нения моделей с разным числом параметров. В первом случае обращают внимание на близость скорректированного и нескорректированного коэффициентов детерми- нации. Если эти показатели велики и различаются незначительно, модель считает- ся хорошей.
При сравнении разных моделей предпочтение при прочих равных условиях отдается той, у которой больше скорректированный коэффициент детерминации.
Этот факт может использоваться при отборе факторов в модель. Добавление в мо- дель новых факторов осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Для оценки тесноты связи факторов с исследуемым признаком, задаваемой по- строенным уравнением регрессии y = f
(x
1
, x
2
. . ., x
m
)+ε, используется коэффициент множественной корреляции R:
R =
√
R
2
=
¿
Á
Á
Á
À1 −
S
2
ocт
S
2
y
=
¿
Á
Á
Á
Á
Á
Á
Á
À
1 −
n
∑
i=1
(y
i
−
̂y
x
i
)
2
n
∑
i=1
(y
i
− y
)
2
.
Коэффициент множественной корреляции R принимает значения в диапазоне
0 ⩽ R ⩽ 1. Чем ближе величина R к единице, тем лучше зависимость
̂y = f (x
1
, x
2
, . . .,
x
m
) согласуется с данными наблюдений. При R = 1 (R
2
=
1
) связь становится функциональной, т. е. соотношение
̂y = f (x
1
, x
2
, . . ., x
m
) точно выполняется для всех наблюдений. Коэффициент множественной корреляции может использоваться как характеристика качества построенного уравнения регрессии
̂y = f (x
1
, x
2
, . . ., x
m
),
точности построенной модели. При правильном включении факторов в регресси- онную модель должно выполняться соотношение R > max
(r
yx
), то есть величина коэффициента множественной корреляции должна существенно отличаться от мак- симального парного коэффициента корреляции. Если же дополнительно включен- ные в уравнение множественной регрессии факторы третьестепенны, то коэффи- циент множественной корреляции может практически совпадать с коэффициентом парной корреляции (различия в третьем, четвертом знаках). Отсюда ясно, что срав- нивая коэффициенты множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного фактора.
В случае линейной зависимости коэффициент корреляции R связан с парными коэффициентами корреляции r
yx
соотношением:
R =
¿
Á
Á
À
m
∑
i=1
β
i
⋅ r
yx
i
,
2.6 Анализ качества эмпирического уравнения регрессии
43
где
β
i
— стандартизованные коэффициенты регрессии:
t
y
=
β
1
⋅ t
x
1
+ β
2
⋅ t
x
2
+ . . . + β
m
⋅ t
x
m
+ ε.
Значимость уравнения множественной регрессии в целом (а также коэффици- ента детерминации R
2
) оценивается с помощью F-критерия Фишера:
F =
S
2
фaкт
S
2
ocт
=
R
2 1 − R
2
⋅
n − m − 1
m
,
где S
2
фaкт
— факторная сумма квадратов на одну степень свободы; S
2
ocт
— остаточ- ная сумма квадратов на одну степень свободы; R
2
— коэффициент множественной детерминации; m — число параметров при переменных x (в линейной регрессии совпадает с числом включенных в модель факторов); n — число наблюдений.
Согласно F-критерию Фишера выдвигаемая «нулевая» гипотеза H
0
о статисти- ческой незначимости уравнения регрессии отвергается при выполнении условия
F > F
тaбл
, где F
тaбл определяется по таблицам F-критерия Фишера по двум степе- ням свободы k
1
=
m, k
2
=
(n − m − 1) и заданному уровню значимости α.
Во множественном регрессионном анализе оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, во- шедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факто- ров они могут вводиться в модель в разной последовательности. Ввиду корреля- ции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Мерой для оценки включения фактора в модель служит частный F-критерий (F
x
i
).
В общем виде для фактора x
i
частный F-критерий определяется следующим выражением:
F
x
i
=
R
2
yx
1
x
2
. . .x
m
− R
2
yx
1
. . .x
i−1
x
i+1
. . .x
m
1 − R
2
yx
1
x
2
. . .x
m
⋅
n − m − 1 1
,
где R
2
yx
1
x
2
. . .x
m
— коэффициент множественной детерминации для модели с полным набором факторов; R
2
yx
1
. . .x
i−1
x
i+1
. . .x
m
— тот же показатель, но без включения в модель фактора x
i
; n — число наблюдений; m — число параметров в модели (без свободного члена).
Для модели с двумя факторами частные F-критерии вычисляются по формулам:
F
x
1
=
R
2
yx
1
x
2
− r
2
yx
2 1 − R
2
yx
1
x
2
⋅
(n − 3); F
x
2
=
R
2
yx
1
x
2
− r
2
yx
1 1 − R
2
yx
1
x
2
⋅
(n − 3).
С помощью частного F-критерия можно проверить значимость всех коэффи- циентов регрессии в предположении, что каждый соответствующий фактор x
i
вво- дился в уравнение множественной регрессии последним.
Фактическое значение частного F-критерия сравнивается с табличным при уровне значимости
α и степенях свободы k
1
=
1, k
2
=
n − m − 1. Если для фактора x
i
выполняется условие F
x
i
>
F
тaбл
, то дополнительное включение фактора x
i
в мо- дель статистически оправданно и коэффициент чистой регрессии b
i
при факторе x
i
44
Глава 2. Множественная линейная регрессия
статистически значим. Если же фактическое значение F
x
i
меньше табличного, то дополнительное включение в модель фактора x
i
не увеличивает существенно долю объясненной вариации признака y, следовательно, нецелесообразно его включение в модель; коэффициент регрессии при данном факторе в этом случае статистиче- ски незначим.
Пример 2.3
Оценим качество уравнения, полученного в примере 2.2.
̂y = −1,487 + 0,3005 ⋅ x
1
+
(−0,445) ⋅ x
2
.
При вычислении используем данные вспомогательной таблицы 2.4.
1. Оценим тесноту связи факторов с исследуемым признаком. Для этого вы- числим парные коэффициенты корреляции и коэффициент множественной корре- ляции.
r
yx
1
=
y ⋅ x
1
− y ⋅ x
1
σ
y
⋅ σ
x
1
=
2341,3 − 23,9 ⋅ 96,7 3,7 ⋅ 9,96
=
0,819;
r
yx
2
=
y ⋅ x
2
− y ⋅ x
2
σ
y
⋅ σ
x
2
=
194,25 − 23,9 ⋅ 8,24 3,7 ⋅ 2,34
= −0,3099;
r
x
1
x
2
=
x
1
⋅ x
2
− x
1
⋅ x
2
σ
x
1
⋅ σ
x
2
=
796 − 96,7 ⋅ 8,24 9,96 ⋅ 2,34
= −0,035;
R
yx
1
x
2
=
¿
Á
Á
À1
−
σ
2
ocт
σ
2
y
=
√
1 −
3,43 13,6
=
0,866.
Значения парных коэффициентов корреляции указывают на достаточно тесную связь доходов от продажи продукции y с постоянными затратами на ее производ- ство x
1
и на умеренную связь с объемом выпуска продукции x
2
. В то же время межфакторная связь r
x
1
x
2
слабая (r
x
1
x
2
=
∣−0,035∣ < 0,7), что говорит о том, что оба фактора являются информативными, т. е. и x
1
, и x
2
необходимо включить в модель.
2. Выполним оценку коэффициента множественной детерминации.
Коэффициент множественной детерминации (R
2
yx
1
x
2
) как квадрат совокупного коэффициента множественной корреляции равен 0,7496. Следовательно, 74,96%
вариации результата объясняется вариацией представленных в уравнении признаков.
3. Выполним оценку частных коэффициентов корреляции.
r
yx
1
⋅x
2
=
r
yx
1
− r
yx
2
⋅ r
x
1
x
2
√
(1 − r
2
yx
2
) ⋅ (1 − r
2
x
1
x
2
)
=
0,819 − 0,3099 ⋅ 0,0346
√
(1 − 0,096) ⋅ (1 − 0,0012)
=
0,85;
r
yx
2
⋅x
1
=
r
yx
2
− r
yx
1
⋅ r
x
1
x
2
√
(1 − r
2
yx
1
) ⋅ (1 − r
2
x
1
x
2
)
=
−0,3099 + 0,8186 ⋅ 0,0346
√
(1 − 0,67) ⋅ (1 − 0,0012)
= −0,49.
То есть можно сделать вывод, что фактор x
1
оказывает более сильное влияние на результат, чем фактор x
2 4. Оценим надежность уравнения регрессии в целом с помощью F-критерия
Фишера.
Контрольные вопросы по главе 2
45
Вычислим фактическое значение F-критерия:
F
фaкт
=
R
2 1 − R
2
⋅
n − m − 1
m
=
0,7496 1 − 0,7496
⋅
10 − 2 − 1 2
=
10,48.
Табличное значение F-критерия при уровне значимости
α = 0,05 и степенях свободы k
1
=
2, k
2
=
10 − 2 − 1 = 7 равно 4,74. Так как F
фaкт
=
10,48 > F
тaбл
=
4,74, то уравнение признается статистически значимым.
5. Оценим целесообразность включения фактора x
1
после фактора x
2
и x
2
после
x
1
с помощью частного F-критерия Фишера:
F
x
1
=
R
2
yx
1
x
2
− r
2
yx
2 1 − R
2
yx
1
x
2
⋅
(n − 3) =
0,7496 − 0,096 1 − 0,7496
⋅ 7 = 18,266;
F
x
2
=
R
2
yx
1
x
2
− r
2
yx
1 1 − R
2
yx
1
x
2
⋅
(n − 3) =
0,7496 − 0,67 1 − 0,7496
⋅ 7 = 2,2187.
Табличное значение F-критерия при уровне значимости
α = 0,05 и степенях свободы k
1
=
1, k
2
=
10 − 2 − 1 = 7 равно 5,59. Так как F
x
1
=
18,266 > F
тaбл
=
=
5,59, то включение фактора x
1
в модель статистически оправдано и коэффициент чистой регрессии b
1
статистически значим. Для фактора x
2
выполняется условие
F
x
2
=
2,2187 < F
тaбл
=
5,59, что говорит о нецелесообразности включения в модель фактора x
2
, после того, как уже введен фактор x
1
Контрольные вопросы по главе 2 1. Дайте определение множественной линейной регрессионной модели. Дай- те краткую характеристику ее элементов.
2. В чем отличие целей построения модели парной регрессии и модели мно- жественной регрессии?
3. Каким требованиям должны отвечать факторы модели множественной ре- грессии?
4. Что такое мультиколлинеарность факторов и как ее выявить?
5. Назовите основные алгоритмы построения модели множественной линей- ной регрессии.
6. Каковы свойства стандартизованных коэффициентов регрессии?
7. Как связаны между собой коэффициенты «чистой» регрессии и регрессии в стандартизованном масштабе?
8. В чем заключается смысл расчета скорректированного индекса корреляции и какова связь его с индексом корреляции при различном числе вводимых в модель факторов?
9. Какой критерий используется для оценки значимости коэффициентов ре- грессии?
10. Для чего используется частный F-критерий?
Глава 3
ГЕТЕРОСКЕДАСТИЧНОСТЬ
И АВТОКОРРЕЛЯЦИЯ ОСТАТКОВ
3.1 Предпосылки МНК
В задачу практического регрессионного анализа входит получение качествен- ных оценок параметров уравнения регрессии. Качество оценок параметров опре- деляется свойствами: несмещенность, состоятельность и эффективность.
Несмещенность оценки параметра означает, что ее математическое ожидание равно оцениваемому параметру:
M
(b
j
) = b
гeн
j
,
где b
j
— оценка параметра; b
гeн
j
— значение параметра в генеральной совокупности.
Оценка параметра является эффективной, если она имеет наименьшую дис- персию среди всех несмещенных оценок данного параметра по выборкам одного и того же объема:
M
(b
j
− b
гeн
j
)
2
=
σ
2
b
j
=
min
σ
2
b
j
.
Оценка параметра является состоятельной, если с увеличением числа наблю- дений оценка параметра стремится к ее значению в генеральной совокупности.
Перечисленные свойства оценок параметров имеют чрезвычайно важное прак- тическое значение в использовании результатов регрессии и обязательно учитыва- ются при разных способах оценивания. МНК строит оценки регрессионной модели на основе минимизации суммы квадратов остатков, поэтому их свойства напрямую зависят от свойств случайной составляющей
ε.
В модели
y = f
(x
1
, x
2
, . . ., x
m
) + ε