ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.12.2023
Просмотров: 107
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
31 8. Общая оценка качества модели, отсев несущественных (или включение дополнительных) факторов, построение модели, то есть повторение пунктов 1-7.
9. Статистическая оценка достоверности параметров уравнения регрессии, построение доверительных границ для теоретически ожидаемых по уравнению регрессии значений функции.
10. Практические выводы из анализа.
Корреляционный анализ применяется тогда, когда данные наблюдений можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону.
Корреляционный анализ заключается в количественном определении тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков
(при многофакторной связи).
Регрессионный анализ заключается в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Основной предпосылкой регрессионного анализа является то, что только результативный признак подчиняется нормальному закону распределения, а факторные признаки – произвольному закону распределения. При этом в регрессионно-корреляционном анализе заранее подразумевается наличие причинно-следственных связей между результативным и факторными признаками.
Уравнение регрессии представляет собой модель связи социально- экономических явлений и выражается функцией
̂ ( )в случае парной регрессии (характеризует связь между двумя признаками: факторным и результативным) или функцией
̂ (
)
, где k- число
32 факторных признаков, в случае множественной регрессии (характеризует связь между результативным признаком и двумя и более факторными признаками). Уравнение адекватно реальному моделируемому явлению или процессу в случае соблюдения требований его построения.
Требования к построению уравнения регрессии:
- совокупность исходных данных должна быть однородной и математически описываться непрерывными функциями;
- наличие достаточно большого объема исследуемой выборочной совокупности;
- возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей;
- причинно-следственные связи между явлениями и процессами, по возможности, следует описывать линейной (или приводимой к линейной) формой зависимости;
- отсутствие количественных ограничений на параметры модели;
- количественное выражение факторных признаков;
- постоянство территориальной и временной структуры изучаемой совокупности.
Устанавливая функциональные связи, обычно выполняют следующие задачи: построение регрессионной модели, то есть нахождение аналитического выражения связи; прогнозирование по регрессии; оценка адекватности модели, ее экономическая интерпретация и практическое использование.
Приблизительное представление о линии связи можно получить на основе эмпирической линии регрессии. Эмпирическая линия обычно является ломаной линией, имеет более или менее значительный излом.
Объясняется это тем, что влияние прочих неучтенных причин в средних погашается не полностью в силу недостаточно большого количества
33 наблюдений, поэтому для выбора и обоснования типа кривой эмпирической линией связи можно воспользоваться при условии, что число эмпирических данных будет достаточно велико.
Одним из элементов конкретных исследований является сопоставление различных уравнений зависимости, основанное на использовании критериев качества аппроксимации эмпирических данных конкурирующими вариантами моделей.
Наиболее часто для характеристики связей экономических явлений используют следующие типы функций:
- линейную ̂ ;
- гиперболическую ̂
;
- показательную ̂
;
- параболическую ̂
;
- степенную
̂
;
- логарифмическую ̂
Эмпирическая линия регрессии все же больше приближается к прямой, и, следовательно, теоретическая линия регрессии может быть представлена прямой.
Рассматриваются две переменные: X – независимая, объясняющая переменная (признак-фактор), заданная n статистическими значениями: и Y – зависимая переменная (результативный фактор), заданная n статистическими значениями:
Уравнение связи двух переменных Y и X называется парной регрессией.
Линейная парная регрессия это уравнение вида
( )
̂ (
)
– теоретические значения зависимой переменной, рассчитанные с помощью уравнения регрессии.
34
2.2. Метод наименьших квадратов, его суть и применение для
расчета оценок коэффициентов уравнения регрессии
Важной задачей является построение уравнения линейной регрессии по исходным числовым данным и оценка параметров (коэффициентов) регрессии и по методу наименьших квадратов (МНК).
Основные предположения регрессионного анализа
(предпосылки метода наименьших квадратов)
1.
Величины являются случайными.
2.
Математические ожидания возмущений равны нулю, т.е. (
) .
3.
Возмущения и некоррелированы, т.е.
(
) при .
4.
Дисперсия возмущения постоянна для каждого
: (
)
– условие гомоскедастичности. Нарушение этого условия называется гетероскедастичностью.
5.
Величины взаимно независимы со значением объясняющих переменных.
6.
Совместное распределение случайных величин является нормальным.
МНК (метод наименьших квадратов) – метод оценки параметров линейной регрессии, минимизирующий сумму квадратов отклонений наблюдений зависимой переменной от искомой линейной функции
∑(
̂)
Параметры и являются решением системы нормальных уравнений
{
∑
∑
∑
∑
∑
35
Можно использовать готовые формулы для нахождения и :
̅ ̅
̅̅̅ ̅ ̅
̅̅̅ ̅
( )
( )
̅̅̅ ̅ ̅ – выборочная ковариация,
∑
(
̅)
или
̅̅̅ ̅
∑
(
)
( ̅)
– выборочная дисперсия переменной ,
̅
∑
̅
∑
– выборочные средние по переменным X и Y соответственно.
Коэффициент называется коэффициентом регрессии у по х. Он показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу. Коэффициент – значение у при х=0. Если признак-фактор Х не может иметь нулевого значения, то параметр не имеет экономического смысла.
Уравнение регрессии всегда дополняется показателем тесноты связи между рассматриваемыми переменными, в качестве которого выступает линейный коэффициент корреляции
, который можно рассчитать по формулам
̅̅̅ ̅ ̅
[ ] где
√
̅̅̅ ̅
√
̅̅̅ ̅
– выборочные средние квадратические отклонения переменных Х и Y соответственно.
Величина показывает на сколько величин изменится в среднем
Y, когда Х увеличится на одно
Теснота линейной связи между переменными может быть оценена на основании шкалы Чеддока:
36
Теснота связи
Значение коэффициента корреляции при наличии: прямой связи обратной связи слабая
0,1-0,3
(-0,3)-(-0,1) умеренная
0,3-0,5
(-0,5)-(-0,3) заметная
0,5-0,7
(-0,7)-(-0,5) высокая
0,7-0,9
(-0,9)-(-0,7) весьма высокая
0,9-1
(-1)-(-0,9)
Если
, то между Х и Y строгая отрицательная связь, если
, то между Х и Y строгая положительная связь, если
, то между Х и Y линейная связь отсутствует.
После нахождения уравнения регрессии встает вопрос о соответствии полученной математической модели (то есть самого уравнения), выражающей зависимость между переменными, экспериментальным данным.
Для общего сведения о качестве модели используют коэффициент детерминации, а также среднюю ошибку аппроксимации.
Коэффициент детерминации обозначается и равен он коэффициенту корреляции в квадрате, то есть
Задача регрессионного анализа состоит в анализе дисперсии показателя y. Согласно основной идее дисперсионного анализа общая сумма квадратов отклонений равна сумме квадратов отклонений, объясненных регрессией и остаточной сумме квадратов:
∑
(
̅)
∑
(
̂ ̅)
∑
(
̂)
Общая сумма
Сумма квадратов
Остаточная сумма
37 квадратов отклонений отклонений, объясненная регрессией (факторная сумма квадратов) квадратов
(характеризует влияние неучтенных факторов)
TSS
ESS
RSS
Схема дисперсионного анализа:
Пусть - число наблюдений, – число коэффициентов, стоящих перед переменной хв уравнении регрессии (в случае линейной регрессии
m=1, так как перед переменной х стоит один коэффициент b)
Компон
енты
дисперсии
Сумма квадратов
Числ
о степеней
свободы
Дисперсия
на одну степень
свободы
общая
∑
(
̅)
∑
(∑
)
∑
(
̅)
факторн ая
∑
(
̂ ̅)
∑
(
̂ ̅)
остаточ ная
∑
(
̂)
∑
∑
(
̂)
Для вычисления коэффициента детерминации можно использовать следующую формулу:
(
)
∑
(
̂ ̅)
∑
(
̅)
38
Коэффициент детерминации есть доля дисперсии, объясняемая регрессией, в общей доле дисперсии результативного признака.
Величина характеризует долю дисперсии признака Y, вызванную влиянием остальных, не учтенных в модели, факторов.
Свойства коэффициента детерминации:
1)
2)
Чем ближе к единице, тем лучше регрессия аппроксимирует эмпирические данные, т.е. эмпирические наблюдения ближе к линии выборочной регрессии. Если
, то между x и y есть линейная функциональная зависимость, в этом случае все эмпирические точки наблюдений лежат на прямой регрессии.
3)
Если
, то регрессия ничего не дает, то есть в этом случае вариация зависимой переменной полностью обусловлена случайными воздействиями и линия выборочной регрессии параллельна осиОх.
1 2 3 4 5
2.3. Средняя ошибка аппроксимации
Средняя ошибка аппроксимации ̅–это еще одна величина, позволяющая судить о качестве модели. Это среднее отклонение расчетных значений от фактических, полученных по уравнению регрессии.
̅
∑
|
̂|
|
|
Допустимый предел значений ̅ составляет 8-10%.
Оценку значимости уравнения регрессии в целом производят на основании F-критерия Фишера. Величина F-критерия вычисляется по следующей формуле
( )
( ) и сравнивается с табличным, определенным по таблице распределения Фишера-Снедекора
(
)
при уровне значимости
39
(задается в условии задачи) и числом степеней свободы и
(в случае рассматриваемой линейной регрессии).
Если
(
)
то построенное уравнение линейной регрессии значимо.
Если
(
)
то построенное уравнение линейной регрессии незначимо.
Кроме оценки значимости уравнения регрессии в целом с использованием F-критерия Фишера, можно проводить оценку значимости линейного уравнения регрессии, исследуя значимость коэффициентов регрессии и и линейного коэффициента корреляции с использованием t-критерия Стьюдента.
При проверке статистической значимости оценок а и bвводятся статистические гипотезы о равенстве нулю параметров и теоретического уравнения регрессии:
– нулевая гипотеза (
– конкурирующая гипотеза) в случае, если речь идет о проверке статистической значимости параметра
а, или
– нулевая гипотеза (
– конкурирующая гипотеза) в случае, если речь идет о проверке статистической значимости параметра
b.
Невозможность отклонения какой либо из гипотез означает статистическую незначимость соответствующего коэффициента и наоборот, отклонение от какой либо из гипотез означает, что соответствующий коэффициент статистически значим.
Проверка статистических гипотез осуществляется при некотором уровне значимости. Чаще всего это 5% и 1% уровни значимости.
Если отклоняется на 1% уровне значимости, то отклоняется на
5% уровне значимости.
Если принимается на 5% уровне значимости, то принимается на 1% уровне значимости.
40
Если отклоняется на 5% уровне значимости, то необходимо ее проверять на 1% уровне значимости и, если при этом уровне она принимается, то результаты проверки гипотезы приводятся для двух уровней значимости.
Вычисляются
1.
√
∑
(
̂ )
2.
√
,
√∑
,
√
√
– стандартные ошибки (стандартные отклонения) коэффициентов , и соответственно.
3.
,
,
4.
– фактическое значение t-критерия Стьюдента при заданном уровне значимости и числе степеней свободы
Затем производится сравнение полученных в третьем пункте значений с
Если |
|
, то коэффициент статистически значим;
Если |
|
, то коэффициент статистически незначим.
Если |
|
, то коэффициент статистически значим;
Если |
|
, то коэффициент статистически незначим.
Если |
|
, то линейный коэффициент корреляции статистически значим;
Если |
|
, то линейный коэффициент корреляции статистически незначим.
Часто при проверке качества коэффициентов используют «грубое правило»:
Если |
| , то коэффициент статистически незначим;