ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 26.11.2019
Просмотров: 667
Скачиваний: 2
СОДЕРЖАНИЕ
Тема 1. Современные задачи и методы эконометрического моделирования
Тема 2. Однофакторная линейная регрессия
Тема 3. Подбор параметров прямой регрессии по методу наименьших квадратов
Тема 4. Статистические критерии
Тема 5. Проверка линейной регрессии на адекватность
Тема 6. Прогноз на основании линейной регрессии
Тема 7. Нелинейная однофакторная модель
Тема 9. Многофакторная регрессия
Для учета этого факта в моделях применяются переменные, отнесенные к прошлому периоду времени.
Переменные модели, отнесенные к предыдущим моментам времени, называются «лаговыми». Все лаговые переменные (эндогенные и экзогенные) и текущие экзогенные переменные составляют группу «предопределенных» переменных. В приведенной форме модели каждая текущая эндогенная переменная должна быть выражена через предопределенные переменные.
В экономике часто встречаются такие факторы , которые носят качественный характер. Например, уровень образования («начальное», «среднее», «высшее», «незаконченное высшее». Для использования таких факторов в моделях применяются «фиктивные» переменные.
Фиктивной переменной модели называют переменную, которая вводится для учета качественных факторов и принимающая дискретные числовые значения. Фиктивные переменные участвуют в моделях одновременно с другими типами переменных
Классификация эконометрических моделей:
-
Однофакторные
-
Линейные вида
-
Нелинейные:
-
сводящиеся к линейным;
-
существенно нелинейные
-
-
-
Многофакторные
-
Линейные вида
-
Нелинейные:
-
сводящиеся к линейным;
-
существенно нелинейные
-
-
Решение задач эконометрии проводится на базе статистических данных. Статистические данные – это данные, собранные на реальных экономических объектах.
В эконометрии статистические данные можно подразделить на два типа: динамические (временные) и вариационные ряды.
Динамические ряды – это последовательность наблюдений за одним и тем же процессом или явлением в различные промежутки времени. Например, данные о динамике уровня инфляции за определенный период.
Вариационные ряды – последовательность наблюдений по какому-либо экономическому показателю для разных однотипных объектов. Все замеры производятся в одно и то же время. Значения вариационного ряда располагают в порядке возрастания. Например, средняя заработная плата работников одной и той же категории по заводам отрасли.
Совокупность данных динамических и вариационных рядов обрабатывается по правилам, разработанным в математической статистике.
Генеральная совокупность – это возможные реализации интересующего нас показателя. На практике наблюдаем случайно выбранные значения этого показателя (выборка). По генеральной совокупности можно получить точные значения параметров, по выборке – приближенные, или оценки.
Объем выборки – это суммарное количество наблюдений. Объемы выборок могут быть небольшими ( ), большими ( ) и очень большими ( ). На практике чаще всего приходится иметь дело с большими и очень большими выборками, поэтому расчет производится с помощью компьютера.
Во всех случаях всю совокупность выборочных данных ( ) стараются охарактеризовать некоторыми усредненными параметрами, которые учитывают особенности выборки. По выборкам производится расчет основных статистических характеристик:
1. Среднее значение .
2. Вариация (дисперсия) .
Дисперсии характеризуют, как сильно рассеяны значения выборки относительно среднего значения.
3. Среднеквадратическое отклонение или стандартное отклонение. Эта величина характеризует отклонение выборочных значений в среднем от .
Тема 2. Однофакторная линейная регрессия
План темы
2.1. Корреляционное поле. Линия тренда
2.2. Коэффициент корреляции. Свойства коэффициента корреляции
Изучение зависимостей экономических показателей начинают со случая двух переменных и : . Этот метод наиболее прост и может быть представлен графически.
Для начала нужно установить, существует ли функциональная зависимость между фактором и откликом , и если существует, то определить форму связи.
Для анализа данные представляют в виде таблицы:
X |
Y |
x1 |
y1 |
x2 |
y2 |
… |
… |
xn |
yn |
По таблице строится корреляционное поле (диаграмма рассеивания). Корреляционным полем называют систему точек ( ), ( ), изображенную на координатной плоскости X0Y.
Точка с координатами ( ) называется центром рассеяния.
На основании построенного корреляционного поля можно сделать предположение об определенной зависимости y=f(x) между фактором x и показателем y. Графически такое предположение выражается линией тренда.
Линия тренда – графическое представление направления изменения ряда данных. Например, повышающаяся линия может обозначать увеличение продаж за определенное количество месяцев. Линии тренда используются для анализа ошибок предсказания, что также называется регрессионным анализом.
Линия тренда характеризуется величиной достоверности аппроксимации ( ). Значение - число от 0 до 1, которое отображает близость значений тренда к фактическим данным – линия тренда наиболее соответствует действительности, когда значение близка к 1.
Существует пять основных видов тренда:
1. Линейная аппроксимация – это аппроксимация («описание») набора данных с помощью уравнения прямой. Она применяется в самых простых случаях, когда точки данных расположены близко к прямой. Линейная аппроксимация хороша для величины, которая увеличивается или убывает с постоянной скоростью. Уравнение имеет вид .
2. Логарифмическая аппроксимация используется для описания величины, которая вначале быстро растет или убывает, а затем постепенно стабилизируется. Логарифмическая аппроксимация использует как отрицательные, так и положительные величины. Уравнение имеет вид .
3. Полиномиальная аппроксимация используется для описания величин, попеременно возрастающих и убывающих. Она полезна, например, для анализа большого набора данных о нестабильной величине. Уравнение полинома второй степени имеет вид .
4. Степенная аппроксимация используется для описания монотонно возрастающей либо монотонно убывающей величины, например расстояния, пройденного разгоняющимся автомобилем. Использование степенной аппроксимации невозможно, если данные содержат нулевые или отрицательные значения. Уравнение имеет вид .
5. Экспоненциальная аппроксимация используется в том случае, если скорость изменения данных непрерывно возрастает. Однако для данных, которые содержат нулевые или отрицательные значения, этот вид приближения неприменим. Уравнение имеет вид .
Значения среднеквадратического отклонения (большие или малые) еще не дают характеристику того, есть ли связь между x и y. Поэтому вводится еще одна статистика – коэффициент корреляции. Вначале считается ковариация x,y – (совместная вариация): .
Ковариация обладает тем свойством, что она тем больше по модулю, чем ближе корреляционное поле к прямой. Если корреляционное поле начинает размываться, ковариация уменьшается.
Для удобства работы ковариацию делят на произведение и называют коэффициентом корреляции ( ). Коэффициент корреляции между переменными x и y вычисляется по формуле: .
Коэффициент корреляции является показателем плотности линейной взаимосвязи.
Свойства коэффициента корреляции:
-
;
-
если 0, то зависимость между фактором x и y прямая, то есть с ростом x показатель y также возрастает;
-
если 0, то зависимость между фактором x и y обратная;
-
если 1, связь между x и y – почти линейная;
-
если 0, либо связи нет, либо связь резко нелинейная.
Плотность линейной взаимосвязи оценивают по следующей таблице:
-
Значение
Плотность линейной связи
0,9…1,0
Тесная
0,6…0,9
Достаточная
0,3…0,6
Слабая
0,3
Нет связи
Обычно строят корреляционную таблицу (корреляционную матрицу) связи между переменными x и y. Она имеет вид:
-
x
y
x = x = 1
x
1
y = y = 1
y
1
=
Тема 3. Подбор параметров прямой регрессии по методу наименьших квадратов
План темы
3.1. Парная линейная регрессия. Метод наименьших квадратов (МНК)
3.2. Свойства линейной регрессии
Парной (однофакторной) линейной регрессией называется линейная зависимость между зависимым показателем Y и независимым фактором X.
Связь между x и y пытаются описать зависимостью .
В силу случайных влияний показатель является случайным и может быть записан ,
где - случайное отклонение.
Отклонение (ошибка) исходных данных от рассчитанных по модели вычисляется по формуле .
Суть метода наименьших квадратов (МНК) состоит в том, чтобы минимизировать отклонение в совокупности путем правильного подбора коэффициентов .
Так как отклонение может иметь случайный знак (+ или -), то рассматривают квадраты отклонений и минимизируют сумму квадратов отклонений: .
Сумма S является функцией двух неизвестных параметров . Необходимое условие минимума функции S – равенство нулю производных по :
;
.
Получилась система двух линейных уравнений от двух неизвестных. Такая система имеет единственное решение.
Выразив коэффициенты и сделав арифметические преобразования, получим выражения для определения этих коэффициентов:
; .
Подставляя эти выражения в уравнение регрессии, получим
.
Это уравнение линии регрессии.
1. Сравним уравнение с уравнением прямой, проходящей через точку ( ): . Из сравнения этих уравнений видно, что прямая регрессии всегда проходит через центр рассеяния корреляционного поля, то есть через точку ( ).
2. Из выражения следует, что угловой коэффициент выражается через коэффициент корреляции и среднее квадратичное отклонение фактора и отклика, то есть знак совпадает со знаком коэффициента корреляции (так как всегда).
Если 0, то 0, угол острый, связь между x и y – прямая, то есть с ростом x возрастает y.
Если 0, то 0, угол тупой, связь между x и y – обратная, то есть с ростом x y убывает.
Тема 4. Статистические критерии
План темы
4.1. Нулевая и конкурирующая гипотезы
4.3. Статистические критерии проверки нулевой гипотезы
4.5. Наблюдаемые значения критерия. Критические точки. Критерий принятия гипотезы
Статистическая гипотеза – это предположение либо о виде распределения случайной величины, либо о значении числовой характеристики случайной величины.
Например:
1. Выдвигается гипотеза: случайные отклонения выборочных значений от расчетных значений распределены по нормальному закону. Это гипотеза о виде распределения.
2. Гипотеза: две выборочные дисперсии и равны между собой, то есть . Это гипотеза о числовых характеристиках.
Гипотеза, выдвинутая первой, называется нулевой и обозначается . Например, означает, что , то есть между x и y нет зависимости.
Гипотеза, противоположная гипотезе , называется конкурирующей, или альтернативной, и обозначается . Например, .
При проверке выполнения гипотез возникают две ошибки.
Ошибка 1-го рода состоит в том, что будет отвергнута правильная гипотеза. Вероятность отвергнуть правильную гипотезу обозначают и называют уровнем значимости гипотезы. Обычно принимают . Например, означает, что в 5 случаях из 100 будет отвергнута правильная гипотеза.
Величина называется уровнем доверия.
Ошибка 2-го рода состоит в том, что будет принята неправильная гипотеза.
Статистический критерий – это специально сконструированная случайная величина. Например, для проверки гипотезы о равенстве двух дисперсий используют критерий Фишера.
Критерий Фишера – это специально сконструированная случайная величина, равная отношению двух дисперсий: .
При этом важную роль играет понятие числа степеней свободы.
Число степеней свободы – это разница между объемом выборки, по которой вычисляется выборочная численная характеристика, и числом связей, наложенных на выборочные значения.
Например, имеется выборка объема . По ней вычисляется среднее значение . Эта величина имеет n степеней свободы. Рассмотрим выборочную дисперсию: . Выборочные значения можно изменить (уменьшить или увеличить) причем так, что дисперсия не изменится, но на изменение значений наложена одна связь – это выборочное среднее . Оно входит в формулу для вычисления дисперсии, и значит должно меняться так, чтобы не изменялось имеет (n-1) степеней свободы. Обычно выборочную дисперсию вычисляют по формуле .
Так как в критерий Фишера входит две дисперсии - - и каждая имеет свою степень свободы , то критерий Фишера зависит от двух степеней свободы – .
Получаем функцию . При увеличении распределение приближается к нормальному.
Для того, чтобы принять или отвергнуть гипотезу , необходимо знать наблюдаемое и критическое значения статистического критерия.
Наблюдаемое значение критерия вычисляется по имеющимся данным. Например, проверяется нулевая гипотеза . По выборкам находятся дисперсии и соответствующие им степени свободы . Наблюдаемое значение критерия Фишера: .
Критическое значение – заранее рассчитанное значение критерия с определенным уровнем значимости. Это значение определяется как абсцисса на графике плотности распределения с заданным уровнем значимости и степенями свободы . Критическая точка имеет следующий смысл: .
Для критерия Фишера рассчитаны таблицы критических точек Fкр. Каждому значению соответствует своя таблица. Эти таблицы приводятся в учебниках по математической статистике.
Принять или опровергнуть гипотезу можно, сравнив критическое и наблюдаемое значение критерия. Если наблюдаемое значение меньше критического, то гипотеза принимается. Если наблюдаемое значение больше критического, то гипотеза отвергается.
Для этого нужно знать уровень значимости . В экономике, как правило, принимают . Если уменьшать уровень значимости, то возрастает вероятность совершить ошибку 2-го рода.
Тема 5. Проверка линейной регрессии на адекватность
План темы
5.2. Проверка модели на адекватность с помощью критерия Фишера
После того, как была построена модель линейной регрессии , необходимо проверить ее на адекватность, то есть проверить, соответствует ли построенная модель имеющимся статистическим данным.
Вначале рассмотрим вариацию (разброс) зависимого показателя Y относительно своего среднего значения. Отклонение равно . Можно записать: , где - расчетные значения. То есть вариацию зависимого показателя Y вокруг своего среднего значения можно разделить на два слагаемых: - вариация расчетных значений вокруг среднего; - вариация расчетных значений вокруг фактических.