ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 04.12.2023
Просмотров: 374
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
СОДЕРЖАНИЕ
2.1. Основные цели и задачи прикладного корреляционно-регрессионного анализа
2.2. Постановка задачи регрессии
2.4. Коэффициент корреляции, коэффициент детерминации, корреляционное отношение
3. Классическая линейная модель множественной регрессии
3.2. Оценивание коэффициентов КЛММР
=1 свидетельствует о наличии функциональной связи между переменными Y и X. Если указанные переменные не коррелированны друг с другом, то =0.
Можно показать, что не может быть меньше величины коэффициента корреляции r (формула (2.9)) и в случае линейной связи эти величины совпадают.
Это позволяет использовать величину разности – R2 в качестве меры отклонения регрессионной зависимости от линейного вида.
2.5. Оценка статистической значимости регрессии
Перейдем к вопросу о том, как отличить "хорошие" оценки МНК от "плохих". Конечно, предполагается, что существуют критерии качества рассчитанной линии регрессии.
Перечислим способы, которые помогают решить вопрос о достоинствах рассчитанной линии регрессии:
Перейдем к подробному изложению свойств оценок МНК и способов проверки их значимости.
Несложно показать, что оценки и полученные МНК по (2.8) с учетом ограничений (2.3)-(2.5) являются линейными несмещенными оценками и обладают наименьшими дисперсиями (являются эффективными) в классе линейных оценок (теорема Гаусса-Маркова).
Для вычисления интервальных оценок , предполагаем нормальное распределение случайной величины u. Для получения интервальных оценок , оценим дисперсию случайного члена по отклонениям ei. В качестве оценки дисперсии ошибки возьмем величину:
. (2.12)
Вычислим величину
,
и - стандартную ошибку коэффициента регрессии .
Статистика
,
имеет t-распределение Стьюдента. Так как несмещенная оценка, то для заданного 100(1–)% уровня значимости доверительный интервал для суть:
, (2.13)
где t,n-2 – табличное значение t распределения для (n-2) степеней свободы и уровня значимости .
Вычислим величину
,
и - стандартную ошибку2 коэффициента регрессии .
Статистика
,
имеет t-распределение Стьюдента. Так как несмещенная оценка, то для заданного 100(1–)% уровня значимости доверительный интервал для суть:
, (2.14)
где t,n-2 – табличное значение t распределения для (n-2) степеней свободы и уровня значимости .
Проверим гипотезу о равенстве нулю коэффициента , т.е.
H0: =0.
С учетом статистики для =0, имея в виду формулу для , получим:
. (2.15)
Если вычисленное по (2.15) значение t будет больше t для заданного критического уровня значимости , то гипотеза H0 о равенстве нулю коэффициента отклоняется, если же t<t, то H0 принимается.
Аналогично для проверки гипотезы о равенстве нулю коэффициента , т.е.
H0: =0
рассчитаем статистику:
. (2.16)
Если вычисленное по (2.16) значение t будет больше t для заданного критического уровня значимости , то гипотеза H0 о равенстве нулю коэффициента отклоняется, если же t<t, то H0 принимается.
Заметим, что формула (2.12) может быть упрощена и записана в виде:
. (2.17)
Пример. Приведем расчеты для нашего примера в табл. 2.1. По формуле (2.17) рассчитаем дисперсию ошибки:
=(1282345–(–2,91)3861–0,92761394495)/10=4,6948 или =2,1667.
Найдем доверительный интервал для по первой из формул (2.13):
= .
По таблице t-распределения находим
t0,05;10=2,228 и =-2,912,2282668,219/747,0743.
Откуда =-2,917,798 или -10,74,9.
С вероятностью 0,95 истинные значения находятся в интервале 10,74,9.
Аналогично найдем доверительный интервал для по первой из формул (2.14): = =0,92760,022 и 0,910,95.
Кроме того по экономическому смыслу переменных примера следует ожидать, что 01. Поскольку доверительный интервал не включает 0 и 1, то результаты регрессии соответствуют гипотезе 01.
Проверим гипотезу о равенстве нулю коэффициента , т.е. H0: =0.
Рассчитаем t-статистику по формуле (2.16):
t=0,9276 /2,1667=92,328.
Табличное значение t0,01;10=3,169, так как t>t0,01;10, то гипотеза о том, что =0 отклоняется. Можно говорить о том, что коэффициент значимо отличен от нуля.
Разложим общую вариацию значений Y около их выборочного среднего на составляющие (см. рис. 2.1):
. (2.18)
Сумма квадратов отклонений от среднего в выборке равна сумме квадратов отклонений значений , полученных по уравнению регрессии, от выборочного среднего
плюс сумма квадратов отклонений Y от линии регрессии .
Первую связывают с линейным воздействием изменений переменной X и называют "объясненной".
Вторая составляющая является остатком и называется "необъясненной" долей вариации переменной Y.
Отметим, что долю дисперсии, объясняемую регрессией, в общей дисперсии результативной переменной Y характеризует коэффициент детерминации, определяемый по формуле (2.10), которая может быть преобразована с учетом (2.18) к виду:
.
Предположим, что мы хотим проверить гипотезу об отсутствии линейной функциональной связи между X и Y, т.е. H0: =0.
Иначе говоря, мы хотим оценить значимость уравнения регрессии (2.6) в целом. Для проверки гипотезы сведем необходимые вычисления в таблицу (табл. 2.3).
Соотношение
(2.19)
удовлетворяет F - распределению Фишера с (1, n-2) степенями свободы. Критические значения этой статистики F для уровня значимости затабулированы.
Если F>F, то гипотеза об отсутствии связи между переменными Y и X отклоняется, в противном случае гипотеза Н0 принимается и уравнение регрессии не значимо.
Таблица 2.3
Пример.
Для примера табл. 2.1, с учетом предыдущих вычислений, будем иметь таблицу анализа дисперсии - табл. 2.4.
Применяя формулу (2.19), получим . Табличное значение F0,01(1, 10)=10,04, так что имеющиеся данные позволяют отвергнуть гипотезу об отсутствии связи между личными доходами и индивидуальным потреблением.
Таблица 2.4
Таблица анализа дисперсии (пример в табл. 2.1)
2.6. Интерпретация уравнения регрессии
Проанализируем, какую информацию дает нам оцененное уравнение регрессии (2.6), т.е. поставим вопрос об интерпретации (содержательном объяснении) коэффициентов уравнения.
Во-первых, можно сказать, что увеличение X на одну единицу (в единицах измерения переменной X) приведет к увеличению/уменьшению (в зависимости от знака коэффициента ) значения Y на единиц (в единицах измерения переменной Y).
Во-вторых, необходимо проверить, в каких единицах измерены переменные X и Y и можно ли заменить слово "единица" фактическим количеством (рубли, тонны и т.п.).
В-третьих, константа дает прогнозируемое значение Y, если положить X=0. Это может иметь или не иметь экономического смысла в зависимости от конкретной ситуации.
Часто рассчитывают средний коэффициент эластичности , который показывает, на сколько процентов в среднем по совокупности изменится результат Y от своей средней величины при изменении фактора X на 1% от своего среднего значения.
Пример. Продолжая рассмотрение примера п. 2.1, проинтерпретируем уравнение регрессии между индивидуальным потреблением и личными доходами в США:
Можно показать, что не может быть меньше величины коэффициента корреляции r (формула (2.9)) и в случае линейной связи эти величины совпадают.
Это позволяет использовать величину разности – R2 в качестве меры отклонения регрессионной зависимости от линейного вида.
2.5. Оценка статистической значимости регрессии
Перейдем к вопросу о том, как отличить "хорошие" оценки МНК от "плохих". Конечно, предполагается, что существуют критерии качества рассчитанной линии регрессии.
Перечислим способы, которые помогают решить вопрос о достоинствах рассчитанной линии регрессии:
-
построение доверительных интервалов и оценка статистической значимости коэффициентов регрессии по t-критерию Стьюдента; -
дисперсионный анализ и F – критерий Фишера; -
проверка существенности выборочного коэффициента корреляции (детерминации).
Перейдем к подробному изложению свойств оценок МНК и способов проверки их значимости.
Несложно показать, что оценки и полученные МНК по (2.8) с учетом ограничений (2.3)-(2.5) являются линейными несмещенными оценками и обладают наименьшими дисперсиями (являются эффективными) в классе линейных оценок (теорема Гаусса-Маркова).
Для вычисления интервальных оценок , предполагаем нормальное распределение случайной величины u. Для получения интервальных оценок , оценим дисперсию случайного члена по отклонениям ei. В качестве оценки дисперсии ошибки возьмем величину:
. (2.12)
Вычислим величину
,
и - стандартную ошибку коэффициента регрессии .
Статистика
,
имеет t-распределение Стьюдента. Так как несмещенная оценка, то для заданного 100(1–)% уровня значимости доверительный интервал для суть:
, (2.13)
где t,n-2 – табличное значение t распределения для (n-2) степеней свободы и уровня значимости .
Вычислим величину
,
и - стандартную ошибку2 коэффициента регрессии .
Статистика
,
имеет t-распределение Стьюдента. Так как несмещенная оценка, то для заданного 100(1–)% уровня значимости доверительный интервал для суть:
, (2.14)
где t,n-2 – табличное значение t распределения для (n-2) степеней свободы и уровня значимости .
Проверим гипотезу о равенстве нулю коэффициента , т.е.
H0: =0.
С учетом статистики для =0, имея в виду формулу для , получим:
. (2.15)
Если вычисленное по (2.15) значение t будет больше t для заданного критического уровня значимости , то гипотеза H0 о равенстве нулю коэффициента отклоняется, если же t<t, то H0 принимается.
Аналогично для проверки гипотезы о равенстве нулю коэффициента , т.е.
H0: =0
рассчитаем статистику:
. (2.16)
Если вычисленное по (2.16) значение t будет больше t для заданного критического уровня значимости , то гипотеза H0 о равенстве нулю коэффициента отклоняется, если же t<t, то H0 принимается.
Заметим, что формула (2.12) может быть упрощена и записана в виде:
. (2.17)
Пример. Приведем расчеты для нашего примера в табл. 2.1. По формуле (2.17) рассчитаем дисперсию ошибки:
=(1282345–(–2,91)3861–0,92761394495)/10=4,6948 или =2,1667.
Найдем доверительный интервал для по первой из формул (2.13):
= .
По таблице t-распределения находим
t0,05;10=2,228 и =-2,912,2282668,219/747,0743.
Откуда =-2,917,798 или -10,74,9.
С вероятностью 0,95 истинные значения находятся в интервале 10,74,9.
Аналогично найдем доверительный интервал для по первой из формул (2.14): = =0,92760,022 и 0,910,95.
Кроме того по экономическому смыслу переменных примера следует ожидать, что 01. Поскольку доверительный интервал не включает 0 и 1, то результаты регрессии соответствуют гипотезе 01.
Проверим гипотезу о равенстве нулю коэффициента , т.е. H0: =0.
Рассчитаем t-статистику по формуле (2.16):
t=0,9276 /2,1667=92,328.
Табличное значение t0,01;10=3,169, так как t>t0,01;10, то гипотеза о том, что =0 отклоняется. Можно говорить о том, что коэффициент значимо отличен от нуля.
Разложим общую вариацию значений Y около их выборочного среднего на составляющие (см. рис. 2.1):
. (2.18)
Сумма квадратов отклонений от среднего в выборке равна сумме квадратов отклонений значений , полученных по уравнению регрессии, от выборочного среднего
плюс сумма квадратов отклонений Y от линии регрессии .
Первую связывают с линейным воздействием изменений переменной X и называют "объясненной".
Вторая составляющая является остатком и называется "необъясненной" долей вариации переменной Y.
Отметим, что долю дисперсии, объясняемую регрессией, в общей дисперсии результативной переменной Y характеризует коэффициент детерминации, определяемый по формуле (2.10), которая может быть преобразована с учетом (2.18) к виду:
.
Предположим, что мы хотим проверить гипотезу об отсутствии линейной функциональной связи между X и Y, т.е. H0: =0.
Иначе говоря, мы хотим оценить значимость уравнения регрессии (2.6) в целом. Для проверки гипотезы сведем необходимые вычисления в таблицу (табл. 2.3).
Соотношение
(2.19)
удовлетворяет F - распределению Фишера с (1, n-2) степенями свободы. Критические значения этой статистики F для уровня значимости затабулированы.
Если F>F, то гипотеза об отсутствии связи между переменными Y и X отклоняется, в противном случае гипотеза Н0 принимается и уравнение регрессии не значимо.
Таблица 2.3
Таблица дисперсионного анализа
Источник вариации | Сумма квадратов отклонений | Число степеней свободы | Среднее квадратов отклонений |
X | | 1 | |
Остаток | | n-2 | |
Общая вариация | | n-1 | - |
Пример.
Для примера табл. 2.1, с учетом предыдущих вычислений, будем иметь таблицу анализа дисперсии - табл. 2.4.
Применяя формулу (2.19), получим . Табличное значение F0,01(1, 10)=10,04, так что имеющиеся данные позволяют отвергнуть гипотезу об отсутствии связи между личными доходами и индивидуальным потреблением.
Таблица 2.4
Таблица анализа дисперсии (пример в табл. 2.1)
Источник вариации | Сумма квадратов отклонений | Число степеней свободы | Среднее квадратов отклонений |
X | 0,92762*46510 | 1 | 40019,1 |
Остаток | 10*4,6948 | 10 | 4,7 |
Общая вариация | 40066,0 | 11 | - |
2.6. Интерпретация уравнения регрессии
Проанализируем, какую информацию дает нам оцененное уравнение регрессии (2.6), т.е. поставим вопрос об интерпретации (содержательном объяснении) коэффициентов уравнения.
Во-первых, можно сказать, что увеличение X на одну единицу (в единицах измерения переменной X) приведет к увеличению/уменьшению (в зависимости от знака коэффициента ) значения Y на единиц (в единицах измерения переменной Y).
Во-вторых, необходимо проверить, в каких единицах измерены переменные X и Y и можно ли заменить слово "единица" фактическим количеством (рубли, тонны и т.п.).
В-третьих, константа дает прогнозируемое значение Y, если положить X=0. Это может иметь или не иметь экономического смысла в зависимости от конкретной ситуации.
Часто рассчитывают средний коэффициент эластичности , который показывает, на сколько процентов в среднем по совокупности изменится результат Y от своей средней величины при изменении фактора X на 1% от своего среднего значения.
Пример. Продолжая рассмотрение примера п. 2.1, проинтерпретируем уравнение регрессии между индивидуальным потреблением и личными доходами в США: