ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 26.11.2019
Просмотров: 674
Скачиваний: 2
СОДЕРЖАНИЕ
Тема 1. Современные задачи и методы эконометрического моделирования
Тема 2. Однофакторная линейная регрессия
Тема 3. Подбор параметров прямой регрессии по методу наименьших квадратов
Тема 4. Статистические критерии
Тема 5. Проверка линейной регрессии на адекватность
Тема 6. Прогноз на основании линейной регрессии
Тема 7. Нелинейная однофакторная модель
Тема 9. Многофакторная регрессия
Обозначим:
- вариация, объясняемая регрессией с числом степеней свободы k=1;
- остатки, необъясненный разброс с числом степеней свободы ;
- общая вариация с числом степеней свободы .
Для анализа общего качества оцененной линейной регрессии обычно используют коэффициент детерминации: .
В числителе стоит сумма квадратов отклонений линии регрессии от фактических значений, а в знаменателе – от среднего значения. Значит, чем меньше отклонение расчетных значений от фактических, тем меньше дробь и тем ближе значение коэффициента детерминации к 1. поэтому считается, что чем ближе значение коэффициента детерминации к 1, тем лучше модель описывает статистические данные.
Обычно в экономике для вариационных рядов величина коэффициента детерминации не превышает 0,6…0,7. считается, что общее качество такой модели хорошее. Ответ на вопрос об адекватности модели не дает.
Проверка линейной модели на адекватность означает выяснение наличия зависимости y от x.
Постановка задачи
Выдвигаем гипотезу: . Уравнение регрессии будет иметь вид: . То есть функциональной зависимости между y и x нет. Для проверки этой гипотезы сравниваются между собой две дисперсии: и .
То есть вычисляем дисперсию остатков и дисперсию расчетных данных , взятых с регрессионной прямой.
Вычисляем количество степеней свободы для статистик . Число степеней свободы дисперсии равно - объем выборки).
Число степеней свободы статистики всегда равно 1, так как прямая регрессии всегда обязана проходить через центр регрессии, для нее можно только слегка изменить угол наклона прямой.
Отношение введенных дисперсий представляет собой случайную величину, распределенную по закону Фишера со степенями свободы : .
Проанализируем, что дает отношение дисперсий в случае, когда уравнение регрессии будет иметь вид: . Все слагаемые в равны 0, и наблюдаемое значение критерия Фишера также равно 0: .
Переход от случая, когда можно признать (а следовательно, и зависимость y от x отсутствует) к случаю, когда следует признать ( , то есть зависимость y от x есть), производят, сравнивая с теоретически вычисленным критическим значением для критерия Фишера Fкр. Рассчитывают точку Fкр при некотором уровне значимости гипотезы . Если , то делаем заключение, что , значит, y от x не зависит, следовательно, модель неадекватна. Если же , то гипотеза отвергается, значит , y зависит от x и, следовательно, модель адекватна (с гарантией ).
По этой модели можно теперь находить прогноз в точке из области прогнозов. Областью прогнозов называется отрезок прямой, заключенный между и . Такой прогноз называется точечным.
Тема 6. Прогноз на основании линейной регрессии
План темы
6.1. Понятие о доверительном интервале
6.2. Алгоритм нахождения полуширины доверительного интервала
Если бы имелись сведения по всей генеральной совокупности, то модно было бы довольно точно найти статистические характеристики, например, . Но, как правило, имеется выборка, в которой порядка десятка точек. По выборке рассчитывают выборочное среднее .
Истинное значение может быть как больше, так и меньше выборочного , то есть точное значение попадает в некоторый интервал, центром которого является выборочное значение .
Если задаться вероятностью (например, 0,9; 0,99; 0,95) попадания в интервал, то чем больше будет задана вероятность, тем шире будет получаться интервал. Если начать уменьшать , то интервал будет сужаться.
Описанный интервал называется доверительным интервалом, а - коэффициентом доверия. Чаще всего на практике берут . Это означает, что в 95% случаев точное значение параметра попадает в интервал.
Доверительный интервал – это интервал, в который с заданной вероятностью попадает истинное значение неизвестного параметра.
Коэффициент доверия – это вероятность, с которой доверительный интервал накроет неизвестный параметр.
По генеральной совокупности для конкретного x можно было бы довольно точно найти прогноз . По выборке строится линейная регрессия и за принимают , снятое с прямой регрессии.
Доверительный интервал, в который попадает неизвестное с некоторым коэффициентом доверия , в случае линейной регрессии оказывается симметричным относительно . Поэтому достаточно найти полуширину доверительного интервала .
При нахождении используется специально сконструированная статистика (случайная величина), распределенная по закону Стьюдента.
Распределение Стьюдента возникает каждый раз, когда сравниваются два математических ожидания (два средних). Распределение Стьюдента симметрично относительно начала координат. Число степеней свободы для критерия Стьюдента .
Полуширина доверительного интервала в точке прогноза вычисляется по формуле: ,
где - среднеквадратичное отклонение выборочных точек от линии регрессии , здесь ;
- критическая точка распределения Стьюдента;
- объем выборки;
- точка из области прогнозов.
Прогнозируемый доверительный интервал для любого x из области прогнозов записывается: .
Совокупность доверительных интервалов для всех х из области прогнозов образует доверительную область. Для линейной однофакторной регрессии она симметрична относительно линии регрессии. Наиболее узкое место доверительной области в точке .
Прогноз для произвольного х дает интервал, в который с вероятностью попадает неизвестное . То есть прогноз при заданном х составит от до с надежностью . Это прогноз с учетом доверительного интервала.
Тема 7. Нелинейная однофакторная модель
План темы
7.1. Линеаризация нелинейных зависимостей
7.2. Алгоритм построения нелинейных эконометрических моделей
Многие экономические процессы не могут быть адекватно описаны линейной зависимостью. Примером таких экономических процессов могут служить: жизненный цикл товаров, процесс накопления капитала, маркетинговые усилия фирм и др.
Наиболее часто используется пять нелинейных зависимостей, которые предпочтительнее других зависимостей тем, что их удается линеаризовать (свести к линейным):
1. Степенная зависимость: .
Для линеаризации прологарифмируем это уравнение: . Обозначим . Получим линейную модель от новых переменных: . Обратное преобразование: . Значит, .
2. Экспоненциальная зависимость: .
Чтобы ее линеаризовать, прологарифмируем это уравнение: . Обозначим: . Получим: . Обратное преобразование: . Значит, .
3. Логарифмическая зависимость: . Сделаем замену: . Получили: .
4. Обратная зависимость: . Сделаем замену: . Получили: .
5. Логистическая кривая: . Сделаем замену: . Получили: .
1. Имеется выборка, относительно которой есть экономические соображения о виде зависимости между х и у: .
X |
x1 |
x2 |
… |
xn |
Y |
y1 |
y2 |
… |
yn |
2. Если зависимость известна, то используя соответствующую замену, пересчитываем значения выборки и получаем новую выборку, по которой можно построить линейную модель: .
U |
u1 |
u2 |
… |
un |
V |
v1 |
v2 |
… |
vn |
3. Найденную модель проверяем на адекватность. Если она адекватна, то и исходная линейная модель адекватна. Если линеаризованная модель неадекватна, то исходная модель выбрана неверно и нужно подобрать другую нелинейную модель (например, вместо степенной попробовать экспоненциальную).
4. Если линеаризованная модель адекватна, то в тех точках, в которых нужно посчитать прогноз, рассчитываем величину доверительного интервала для линеаризованной модели.
5. Пересчитываем прогноз и доверительный интервал для точки прогноза из линеаризованного вида в исходный нелинейный. Для этого находим границы доверительного интервала для линеаризованной модели ( ) и для них, а также для значений с помощью обратного преобразования находим .
Для нелинейной регрессии доверительный интервал может быть несимметричен относительно линии регрессии.
Тема 8. Гетероскедастичность
План темы
8.1. Состоятельность и гомоскедастичность
8.2. Обобщенный метод наименьших квадратов
8.3. Тесты гетероскедастичности
Наряду с аналитической зависимостью в правой части регрессионного уравнения важную роль играет еще случайный член. Эта случайная компонента является ненаблюдаемой величиной. Сами статистические проверки параметров регрессии и показателей корреляции основаны на непроверяемых предпосылках о распределении этой случайной составляющей множественной регрессии.
Коэффициенты регрессии, полученные из системы нормальных уравнений, — это выборочные оценки силы связи. Практическое значение они имеют только тогда, когда являются несмещенными. В этом случае среднее остатков равно нулю или, что то же, среднее оценки равно самому оцениваемому параметру. Тогда остатки не будут накапливаться при большом числе выборочных оцениваний, а сам найденный параметр регрессии можно рассматривать в качестве среднего из большого количества несмещенных оценок.
Кроме того, оценки должны иметь наименьшую дисперсию, т.е. являться эффективными, и тогда появляется возможность перехода от практически малопригодных точечных оценок к интервальному оцениванию. Наконец, доверительные интервалы применимы с большой степенью эффективности, когда вероятность получения оценки на заданном расстоянии от истинного (неизвестного) значения параметра близка к единице. Такие оценки называются состоятельными, и свойство состоятельности характеризуется увеличением их точности с увеличением объема выборки.
Однако условие состоятельности не выполняется автоматически и существенно зависит от выполнения следующих двух важных требований:
1. Сами остатки должны быть стохастическими с максимально выраженной случайностью, т.е. все явно функциональные зависимости должны быть включены именно в аналитическую компоненту множественной регрессии, к тому же значения остатков должны быть распределены независимо друг от друга для различных выборок (отсутствие автокорреляции остатков).
2. Одинаковость дисперсии каждого отклонения (остатка) для всех значений переменных х (гомоскедастичность), т.е. гомоскедастичность выражается постоянством дисперсии для всех наблюдений:
Напротив, гетероскедастичность заключается в нарушении такого постоянства дисперсии для различных наблюдений. В этом случае априорная (до наблюдений) вероятность получения сильно отклоненных величин с различным теоретическим распределением случайного члена для различных наблюдений в выборке будет относительно высока.
Гетероскедастичность может приводить к смещенности оценок коэффициентов регрессии. Гетероскедастичность будет главным образом сказываться на уменьшении эффективности оценок коэффициентов регрессии. Особенно затруднительно становится при этом пользоваться формулой стандартной ошибки коэффициента регрессии, которая предполагает единую дисперсию остатков для любых значений фактора. Что касается несмещенности оценок коэффициентов регрессии, то она прежде всего зависит от независимости остатков и самих величин факторов.
Помимо требований к множественной регрессии, вытекающих из применения МНК, необходимо соблюдать также условия на переменные, включаемые в модель. К таковым прежде всего относятся требования относительно числа факторов модели по заданному объему наблюдений (1 к 7). В противном случае параметры регрессии окажутся статистически незначимыми. С точки зрения эффективности применения соответствующих численных методов при реализации МНК необходимо, чтобы число наблюдений превышало число оцениваемых параметров (в системе уравнений их число более числа определяемых переменных).
При значимом наличии гетероскедастичности целесообразно вместо МНК использовать обобщенный метод наименьших квадратов (ОМНК).
При использовании обобщенного метода наименьших квадратов (ОМНК) корректируется модель, изменяются ее спецификации, преобразуются исходные данные для обеспечения несмещенности, эффективности и состоятельности оценок коэффициентов регрессии.
Предполагается, что среднее остатков равно нулю, но их дисперсия уже не является постоянной, а пропорциональна величинам Кi, где эти величины представляют собой коэффициенты пропорциональности, различные для различных значений фактора х. Таким образом, именно эти коэффициенты (величины Кi) характеризуют неоднородность дисперсии. Естественно, считается, что сама величина дисперсии, входящая общим множителем при этих коэффициентах пропорциональности, неизвестна.
Исходная модель после введения этих коэффициентов в уравнение множественной регрессии продолжает оставаться гетероскедастичной (точнее говоря, таковыми являются остаточные величины модели). Пусть эти остаточные величины (остатки) не являются автокоррелированными. Введем новые переменные, получающиеся делением исходных переменных модели, зафиксированных в результате i-наблюдения, на корень квадратный из коэффициентов пропорциональности Кi. Тогда получим новое уравнение в преобразованных переменных, в котором уже остатки будут гомоскедастичны. Сами новые переменные — это взвешенные старые (исходные) переменные.
Поэтому оценка параметров полученного таким образом нового уравнения с гомоскедастичными остатками будет сводиться к взвешенному МНК (по существу это и есть ОМНК). При использовании вместо самих переменных регрессии их отклонения от средних выражения для коэффициентов регрессии приобретают простой и стандартизованный (единообразный) вид, незначительно различающийся для МНК и ОМНК поправочным множителем 1/К в числителе и знаменателе дроби, дающей коэффициент регрессии.
Необходимо иметь возможность проверять данные на гетероскедастичность. Довольно наглядным, правда нестрогим и требующим навыка способом проверки гомоскедастичности является графическое изучение характера зависимости остатков от среднего вычисленного (теоретического) результативного признака, или соответствующих полей корреляции. Более строгими являются аналитические методы исследования и оценки гетероскедастичности. Этой цели служат приводимые ниже тесты. В них проверяется основная гипотеза о равенстве дисперсий остатков против альтернативной гипотезы (о неравенстве этих гипотез). Кроме того, имеются априорные структурные ограничения по поводу характера гетероскедастичности.
В тесте Голдфелда — Куандта, как правило, используется предположение о прямой зависимости дисперсии ошибки (остатка) от величины некоторой независимой переменной. Схема применения этого теста такова. Сначала данные упорядочиваются по убыванию той независимой переменной, относительно которой имеется подозрение на гетероскедастичность. Затем в этом упорядоченном наборе данных исключают несколько средних наблюдений, где несколько означает примерно четверть (25%) от общего количества всех наблюдений.