ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 24.10.2023
Просмотров: 324
Скачиваний: 6
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
3.1 Предпосылки МНК
47
случайная составляющая
ε представляет собой ненаблюдаемую величину. На прак- тике оценки случайной составляющей
ε рассчитываются как разности фактических и теоретических значений результативного признака y:
ε
i
=
y
i
−
̂y
x
i
.
Исследование остатков
ε
i
предполагает проверку выполнения пяти предпосы- лок МНК:
1) случайный характер остатков
ε
i
;
2) нулевая средняя величина остатков, не зависящая от x
j
;
3) гомоскедастичность — дисперсия каждого отклонения
ε
i
одинакова для всех значений x;
4) отсутствие автокорреляции остатков — значения остатков
ε
i
распределены независимо друг от друга;
5) остатки подчиняются нормальному распределению.
Если распределение случайных остатков
ε
i
не соответствует некоторым пред- посылкам МНК, то следует корректировать модель.
Проверка первой предпосылки МНК о случайном характере остатков
ε
i
вы- полняется визуально на основе графика зависимости остатков
ε
i
от теоретических значений результативного признака (рис. 3.1). Если на графике получена горизон- тальная полоса, то остатки
ε
i
представляют собой случайные величины и МНК
оправдан, теоретические значения
̂y
x
хорошо аппроксимируют фактические значе- ния y.
Рис. 3.1 – Зависимость случайных остатков
ε от теоретических значений
̂y
x
Проверка второй предпосылки МНК относительно нулевой средней величины остатков, не зависящей от x, означает что
∑
(y −̂y
x
) = 0. Это выполнимо для ли- нейных моделей и моделей, нелинейных относительно включаемых переменных.
В рамках соблюдения второй предпосылки МНК также исследуется независи- мость случайных остатков и величины x. С этой целью строится график зависимо- сти случайных остатков
ε от факторов, включенных в регрессию x
j
(рис. 3.2).
Если остатки на графике расположены в виде горизонтальной полосы, то они независимы от значений x
j
. Если же график показывает наличие зависимости
ε
i
и x
j
, то модель не может быть принята. Причины могут быть разные:
нарушение третьей предпосылки МНК;
неправильная спецификация модели и в нее необходимо ввести дополни- тельные члены от x
j
, например x
2
j
;
48
1 2 3 4 5 6 7 8 9 ... 13
Глава 3. Гетероскедастичность и автокорреляция остатков
наличие систематической погрешности модели, что отражается скоплени- ем точек в определенных участках значений фактора x
j
Рис. 3.2 – Зависимость величины остатков от величины фактора x
j
Одной из ключевых предпосылок МНК является условие постоян- ства дисперсий случайных отклонений. Это значит, что для каждо- го значения фактора x
j
остатки
ε
i
имеют одинаковую дисперсию.
Выполнимость данной предпосылки называется гомоскедастич-
ностью (постоянством дисперсий отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью (непо-
стоянством дисперсий отклонений).
При невыполнимости предпосылки постоянства дисперсий отклонений по- следствия применения МНК будут следующими.
1. Оценки коэффициентов по-прежнему останутся несмещенными и линей- ными.
2. Оценки не будут эффективными (т. е. они не будут иметь наименьшую дис- персию по сравнению с другими оценками данного параметра). Они не будут даже асимптотически эффективными. Увеличение дисперсии оценок снижает вероятность получения максимально точных оценок.
3. Дисперсии оценок будут рассчитываться со смещением.
4. Вследствие вышесказанного все выводы, получаемые на основе соответ- ствующих t- и F-статистик, а также интервальные оценки будут нена- дежными. Следовательно, статистические выводы, получаемые при стан- дартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t- статистики будут завышены. Это может привести к признанию статисти- чески значимыми коэффициентов, таковыми на самом деле не являющих- ся [4].
Обнаружение гетероскедастичности дисперсии остатков может быть выпол- нено различными методами. К настоящему времени разработано большое число тестов и критериев для них. Наиболее популярные из них: графический анализ ос- татков, тест ранговой корреляции Спирмена, тест Парка, тест Голдфелда—Квандта.
При построении регрессионных моделей чрезвычайно важно соблюдение чет- вертой предпосылки МНК — отсутствие автокорреляции остатков, т. е. значения
3.2 Гетероскедастичность. Обнаружение гетероскедастичности
49
остатков
ε
i
распределены независимо друг от друга. Автокорреляция остатков озна- чает наличие корреляции между остатками текущих и предыдущих (последующих)
наблюдений. Коэффициент корреляции между
ε
i
и
ε
i−1
, где
ε
i
— остатки текущих наблюдений;
ε
i−1
— остатки предыдущих наблюдений, может быть определен как:
r
ε
i
ε
i−1
=
cov
(ε
i
,
ε
i−1
)
σ
ε
i
⋅ σ
ε
i−1
,
т. е. по обычной формуле линейного коэффициента корреляции. Если этот коэф- фициент окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F
(ε) зависит от i-й точки наблюдения и от рас- пределения значений остатков в других точках наблюдения.
Отсутствие автокорреляции остаточных величин обеспечивает состоятельность и эффективность оценок коэффициентов регрессии. Особенно актуально соблю- дение данной предпосылки МНК при построении регрессионных моделей по ря- дам динамики, где ввиду наличия тенденции последующие уровни динамического ряда, как правило, зависят от своих предыдущих уровней.
Предпосылка о нормальном распределении остатков позволяет проводить про- верку параметров регрессии и корреляции с помощью F- и t-критериев. Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т. е. при нарушении пятой предпосылки МНК.
3.2 Гетероскедастичность. Обнаружение гетероскедастичности
Гомоскедастичность — постоянство дисперсии остатков.
Гетероскедастичность — непостоянство дисперсии остатков.
Проверка выполнения требования гомоскедастичности остатков может быть произведена визуально на основе графика остатков или с помощью специальных критериев.
3.2.1 Графический анализ остатков
Для проведения визуального анализа дисперсии остатков необходимо постро- ить график зависимости дисперсии остатков
ε
2
от значений переменной x
j
. В слу- чае гомоскедастичности дисперсии остатков все отклонения
ε
2
i
находятся внутри полосы постоянной ширины, параллельной оси абсцисс (рис. 3.3). Все прочие слу- чаи соответствуют гетероскедастичности остатков. При множественной регрессии графический анализ возможен как для каждой объясняющей переменной x
j
, так и для выровненного значения результата
̂y
x
. В этом случае по оси абсцисс откла- дываются значения
̂y
x
i
50
Глава 3. Гетероскедастичность и автокорреляция остатков
Рис. 3.3 – Зависимость
ε
2
от величины фактора x
j
3.2.2 Тест ранговой корреляции Спирмена
Использование данного теста основано на предположении, что дисперсии от- клонений увеличиваются либо уменьшаются с ростом значения какого-либо фак- тора. Поэтому для регрессии, построенной по МНК, абсолютные величины откло- нений
ε
i
и значения x
i
будут коррелированы. Для проведения проверки по этому тесту выполняются следующие действия:
1) ранжируются (упорядочиваются по величинам) значения модулей остатков
ε
i
и значения выбранного фактора x
i
;
2) определяется коэффициент ранговой корреляции Спирмена:
r
x,
ε
=
1 −
6 ⋅
n
∑
i=1
d
2
i
n ⋅
(n
2
− 1
)
,
где x — одна из объясняющих переменных; d
i
— разность между рангом i-го наблюдения x и рангом модуля остатка в i-м наблюдении, i = 1, 2, . . ., n; n —
число наблюдений;
3) проверяется значимость вычисленного коэффициента ранговой корреляции.
Гипотеза H
0
: r
x,
ε
=
0 — гомоскедастичность остатков.
Гипотеза H
1
: r
x,
ε
≠
0 — гетероскедастичность остатков.
Для проверки гипотезы H
0
рассчитывается фактическое значение t-критерия:
∣t
r
∣ = ∣
r
x,
ε
∣ ⋅
√
n − 2
√
1 − r
2
x,
ε
.
Если значение, рассчитанное по указанной формуле, превышает табличное
t
тaбл
=
t
α, n−2
, гипотеза H
0
о гомоскедастичности остатков отклоняется. В против- ном случае гипотеза о гомоскедастичности принимается.
Если в модели регрессии больше чем одна объясняющая переменная, то про- верка гипотезы может осуществляться с помощью t-статистики для каждой из них отдельно.
3.2 Гетероскедастичность. Обнаружение гетероскедастичности
51
Пример 3.1
Изучим зависимость спроса на товар от его цены (столбцы 2, 3 табл. 3.1).
После построения регрессии вычислим остатки (столбец 4). Для анализа остатков с помощью теста ранговой корреляции Спирмена выполним следующие действия:
1) отсортируем данные в таблице 3.1 по возрастанию значений x;
2) присвоим каждому наблюдению ранг, для чего необходимо добавить новый столбец и в нем задать числа от 1 до n (столбец 1);
3) отсортируем данные по возрастанию модулей остатков и добавим новый столбец (столбец 5) рангов остатков, задав значения от 1 до n;
4) в дополнительном столбце вычислим значения разности между двумя по- лученными рангами (это и будет значение d
i
);
5) вычислим коэффициент ранговой корреляции и t-статистику и проверим гипотезу о гомоскедастичности остатков.
r
x,
ε
=
1 −
6 ⋅
n
∑
i=1
D
2
i
n ⋅
(n
2
− 1
)
=
1 −
6 ⋅ 515 15 ⋅
(225 − 1)
=
0,0804.
t =
0,0804 ⋅
√
15 − 2
√
1 − 0,0065 2
=
0,29.
Таблица 3.1 – Тест ранговой корреляции Спирмена
Ранг
по x
Цена
x (р.)
Спрос
y (тыс. шт.)
Остатки
Ранг
по остаткам
Разность
рангов d
i
d
i
⋅ d
i
1 2
3 4
5 6
7 8
15,91 117,088
−0,32 1
7 49 5
15,54 119,864
−0,396 2
3 9
15 16,76 110,023
−0,84 3
12 144 2
15,21 123,809 1,006 4
−2 4
3 15,28 121,175
−1,088 5
−2 4
9 15,92 116,17
−1,163 6
3 9
10 15,95 118,344 1,241 7
3 9
14 16,69 110,106
−1,296 8
6 36 1
15,09 125,178 1,450 9
−8 64 6
15,62 118,068
−1,576 10
−4 16 11 16,31 116,201 1,87 11 0
0 12 16,33 111,457
−2,72 12 0
0 13 16,60 115,103 3,01 13 0
0 4
15,49 116,914
−3,73 14
−10 100 7
15,70 123,589 4,56 15
−8 64
Сумма
515
52
Глава 3. Гетероскедастичность и автокорреляция остатков
Выбрав уровень значимости 5%, получим критическую точку t
0,05, 13
=
2,16.
Поскольку условие
∣t∣ > t
α, n−2
не выполняется, то гипотеза о наличии гомоске- дастичности будет принята.
3.2.3 Тест Парка
Тест Парка основан на предположении, что дисперсия
σ
2
i
=
σ
2
(ε
i
) является функцией i-го значения объясняющей переменной X . Парк предложил следующую зависимость:
ln
ε
2
i
=
a + b ⋅ ln x
ij
+ ν
i
,
где x
ij
— i-е значение j-го фактора;
ν
i
— случайный остаток.
Выдвигаются гипотеза H
0
: b = 0, что соответствует гомоскедастичности остат- ков, и гипотеза H
1
: b ≠ 0, которая выявляет наличие связи между ln
ε
2
i
и ln x
ij
Отсюда следует, что гетероскедастичность остатков имеет место.
Условие принятия гипотезы H
1
: t
b
>
t
α, n−2
Если данное условие выполняется, то гипотеза о наличии гетероскедастично- сти будет принята при уровне значимости
α.
Пример 3.2
Проверим гипотезу о гетероскедастичности остатков с помощью теста Парка для данных из примера 3.1.
Зависимость между остаточной дисперсией и объясняющим фактором имеет вид:
ln
ε
2
= −3,36 + 1,45 ⋅ ln
(x);
t
b
=
0,12.
Табличное значение критерия Стьюдента равно t
0,05, 13
=
2,16.
Поскольку условие t
b
<
t
α, n−2
выполняется, то гипотеза о наличии гетероскеда- стичности отклоняется.
3.2.4 Тест Голдфелда—Квандта
Тест Голдфелда—Квандта применяется, если случайные остатки предполага- ются нормально распределенными случайными величинами и стандартное откло- нение
σ
i
=
σ
(ε
i
) пропорционально значению x
i
переменной X в этом наблюдении,
т. е.
σ
2
i
=
σ
2
x
2
i
, i = 1, 2, . . ., n.
Процедура проверки состоит в следующем.
1. Все наблюдения упорядочиваются по возрастанию фактора X .
3.2 Гетероскедастичность. Обнаружение гетероскедастичности
53
2. Упорядоченная совокупность разбивается на три группы размерностей
k,
(n − 2 ⋅ k), k соответственно. Причем k должно быть больше чем число пара- метров модели. Для парной регрессии Голдфелд и Квандт предлагают следующие пропорции: n = 30, k = 11; n = 60, k = 22.
3. Оцениваются отдельные регрессии для первой группы (k первых наблю- дений) и для третьей группы (k последних наблюдений). Если предположение о пропорциональности дисперсий отклонений значениям фактора X верно, то дис- персия регрессии по первой группе (рассчитываемая как S
1
=
k
∑
i=1
ε
2
i
) будет су- щественно меньше дисперсии регрессии по третьей группе (рассчитываемой как
S
3
=
n
∑
i=n−k+1
ε
2
i
).
4. Формулируются:
основная гипотеза, предполагающая постоянство дисперсий случайных ошибок модели регрессии, т. е. присутствие в модели условия гомоскеда- стичности: H
0
: S
1
=
S
3
;
альтернативная гипотеза, предполагающая непостоянство дисперсий слу- чайных ошибок в различных наблюдениях, т. е. присутствие в модели усло- вия гетероскедастичности: H
1
: S
1
≠
S
3 5. Для сравнения соответствующих дисперсий вычисляется фактическое зна- чение F-критерия:
F
фaкт
=
S
3
/(k − m − 1)
S
1
/(k − m − 1)
=
S
3
S
1
.
Здесь
(k −m−1) — число степеней свободы соответствующих выборочных дис- персий (m — количество объясняющих переменных в уравнении регрессии).
Если
(F
фaкт
=
S
3
/S
1
) > F
тaбл
(где F
тaбл
=
F
α, k
1
, k
2
,
α — выбранный уровень значи- мости), то гипотеза H
0
об отсутствии гетероскедастичности отклоняется.
Этот же тест может использоваться при предположении об обратной пропор- циональности между
σ
i
и значениями объясняющей переменной. При этом стати- стика Фишера имеет вид:
F =
S
1
S
3
.
Для множественной регрессии данный тест обычно проводится для той объяс- няющей переменной, которая в наибольшей степени связана с
σ
i
. При этом k долж- но быть больше, чем
(m + 1). Если нет уверенности относительно выбора пере- менной X
j
, то данный тест может осуществляться для каждой из объясняющих переменных.
Пример 3.3
Проверим гипотезу о гетероскедастичности остатков с помощью теста Гольд- фелда—Квандта для данных из примера 3.1.
1. Данные таблицы 3.1 упорядочим по значению фактора x (табл. 3.2).