ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 23.11.2023
Просмотров: 22
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Лекция
Регрессионный
анализ
2
Примеры применение регрессионного анализ
Связь между переменными может быть положительная, отрицательная или отсутствует.
➢ Моделирование числа поступивших в университет для лучшего понимания факторов, удерживающих детей в том же учебном заведении.
➢ Моделирование потоков миграции в зависимости от таких факторов как средний уровень зарплат,
наличие медицинских, школьных учреждений,
географическое положение…
➢ Моделирование дорожных аварий как функции скорости, дорожных условий, погоды и т.д.,
➢ Моделирование потерь от пожаров как функции от таких переменных как количество пожарных станций, время обработки вызова, или цена собственности.
Суть регрессионного анализа заключается в нахождении наиболее важных факторов, которые влияют на зависимую переменную.
3
Термины и концепции регрессионного анализа
Определение:
Уравнение, отражающее зависимость между математическим ожиданием (условного распределения) одной переменной и соответствующими значениями другой переменной, называется
регрессионным уравнением.
Таким образом, регрессионное уравнение может быть записано в виде где М(у/х) — условное математическое ожидание случайной переменной у при заданном значении х. В
частности, для i-го заданного значения уравнение регрессии записывается в виде:
Регрессионное уравнение есть некая регулярная часть зависимости между у и х, фактически наблюдаемое значение , состоит из этой регулярной части и случайной компоненты
:
Наличие случайной компоненты обусловлено двумя причинами:
• любая регрессионная модель является упрощением действительности. (на самом деле существуют другие факторы, от которых также зависит переменная Yi);
• присутствуют ошибки измерения показателей.
4
)
(
i
x
f
x
y
M
=
)
(
)
/
(
i
i
x
f
x
y
M
=
i
i
i
i
x
y
M
y
+
=
)
/
(
Термины и концепции регрессионного анализа
➢ Зависимая переменная(Y) —это переменная, описывающая процесс, который мы пытаемся предсказать или понять.
➢ Независимые переменные (X) это переменные, используемые для моделирования или прогнозирования значений зависимых переменных.
В
уравнении регрессии они располагаются справа от знака равенства и часто называются объяснительными переменными. Зависимая переменная -это функция независимых переменных.
➢ Коэффициенты регрессии —это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой.
➢ Невязки. Существует необъяснимое количество зависимых величин, представленных в уравнении регрессии как случайные ошибки.
5
Последовательность этапов регрессионного анализа
1) Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.
2) Определение зависимых и независимых (объясняющих) переменных.
3) Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.
4) Формулировка гипотезы о форме связи (парная или множественная, линейная или нелинейная).
5) Определение
функции регрессии
(заключается в расчете численных значений параметров уравнения регрессии)
6) Оценка точности регрессионного анализа.
7)
Интерпретация полученных результатов.
Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами.
Оценивается корректность и правдоподобие полученных результатов.
8) Предсказание неизвестных значений зависимой переменной.
6
Однофакторная линейная регрессия
Определение:
Однофакторным линейным регрессионным уравнением называется статистическая связь между зависимой переменной y и независимым фактором (регрессором) х, представленная в виде линейной зависимости.
или
Здесь a и b неизвестные подлежащие оценке параметры регрессии.
Случайная компонента определяется как где:
- расчетные значения, - фактические значения.
и оцененные значения коэффициентов a и b.
7
+
+
=
bx
a
y
i
i
i
bx
a
y
+
+
=
i
i
i
y
y
ˆ
−
=
i
i
x
b
a
y
+
=
ˆ
ˆ
ˆ
i
y
ˆ
i
y
a
ˆ
bˆ
Однофакторная линейная регрессия имеет вид:
Интерпретация коэффициентов регрессии:
b – это коэффициент регрессии, показывающий насколько (как) в среднем изменится y при увеличении или уменьшении x на 1. Если b > 0, то наблюдается прирост y при увеличении x на единицу. Если b <
0, то наблюдается уменьшение y при увеличении x на единицу.
Коэффициент а – свободный член уравнения регрессии (константа), обычно «экономического» смысла он не имеет, но иногда его интерпретируют как начальное значение y, значение у при х=0.
Свободный член регрессии а показывает величину зависимой переменной, при условии, что независимая переменная равна 0.
Коэффициент регрессии и свободный член – размерные величины, их абсолютные значения зависят от единиц измерения зависимой и независимой переменной.
В случае если переменная х – время, рассматривается временной (динамический) ряд.
Однофакторная линейная регрессия
+
+
=
bx
a
y
8
Линейные и нелинейные регрессии.
Линейная регрессия
Нелинейная регрессия
9
Наиболее распространенные виды функций и их преобразование
10
Метод наименьших квадратов
Для того, чтобы теоретическая прямая лежала в непосредственной близости от фактических наблюдений Y
i
необходимо минимизировать сумму квадратов отклонений между фактическими и расчетными значениями :
Запишем необходимое условие экстремума:
или
Раскрывая скобки, получим стандартную форму нормальных уравнений:
Разрешая систему относительно
11
i
i
X
b
a
y
ˆ
ˆ
ˆ
+
=
min
)
ˆ
ˆ
(
)
ˆ
(
1 2
1 2
−
−
=
−
=
=
=
n
i
i
i
n
i
i
i
x
b
a
y
y
y
F
=
=
;
0
ˆ
0
ˆ
b
F
a
F
=
=
=
−
−
−
=
=
−
−
−
=
n
i
i
i
t
n
i
i
i
X
b
a
Y
X
b
F
X
b
a
Y
a
F
1 1
0
)
ˆ
ˆ
(
2 0
)
ˆ
ˆ
(
2
=
=
=
−
−
=
−
−
n
i
i
i
i
n
i
i
i
X
b
a
Y
X
X
b
a
y
1 1
0
)
ˆ
ˆ
(
0
)
ˆ
ˆ
(
=
+
=
+
i
i
i
i
i
i
Y
X
X
b
X
a
Y
X
b
n
a
2
ˆ
ˆ
ˆ
ˆ
(
)(
)
(
)
−
=
−
−
=
b
X
n
Y
n
a
X
X
n
Y
X
Y
X
n
b
i
i
i
i
i
i
i
i
ˆ
1
1
ˆ
ˆ
2
2
b
a ˆ
,
ˆ
Линейная регрессия
Модель – уравнение прямой –
Y = a + b*X
Построение модели – расчет коэффициентов
признак X
пр
изн
ак
Y
- эмпирические значения признака Y
- теоретические значения признака Y
(“Y с крышечкой”)
Прямая должна пройти так, чтобы сумма квадратов отклонений эмпирических значений Y от теоретических была минимальна.
Прямая пройдет через точку (Xср, Yср)
МНК –метод
наименьших
квадратов
i
12
Проверка адекватности линейной регрессии
Определение:
Адекватность
регрессионного
уравнения,
это соответствие его реальному моделируемому процессу, достоверность его параметров.
Схема проверки адекватности уравнения
1. Анализируются показатели качества подгонки регрессионного уравнения ;
2. Проверяются различные гипотезы относительно параметров регрессионного уравнения ;
3. Проверяется выполнение условий для получения «достоверных» оценок методом наименьших квадратов;
4. Производится содержательный анализ регрессионного уравнения.
13
Проверка качества подгонки
Показатели качества подгонки отражают соответствие расчетных значений зависимой переменной фактическим значениям зависимой переменной у. Эти показатели основываются на
Первый показатель
— остаточная дисперсия. Для однофакторного уравнения остаточная дисперсия вычисляется по формуле :
Чем меньше
, тем лучше регрессионное уравнение описывает моделируемый процесс.
является размерной величиной и сопоставление регрессионных уравнений, отражающих различные переменные, измеренные в различных единицах измерения, невозможно.
Второй показатель
— коэффициент детерминации R
2
Коэффициент детерминации вычисляется по формуле :
Коэффициент детерминации принимает значения в интервале от 0 до 1. Чем ближе R
2
к единице, тем лучше качество подгонки регрессионного уравнения, так как R
2
приближается к единице при приближении вычитаемой дроби к 0. В свою очередь указанная дробь приближается к нулю при приближении к нулю числителя, то есть при небольших отклонениях фактических и теоретических значений зависимой переменной. На основании R
2
возможно сопоставление различных уравнений.
14
yˆ
(
)
=
−
n
i
i
i
y
y
1
2
ˆ
2
)
ˆ
(
1
2
2
−
−
=
=
n
y
y
n
i
i
i
(
)
(
)
=
=
−
−
−
=
n
i
i
n
i
i
i
y
y
y
y
R
1
2
1
2
2
ˆ
1
2
2
Третий показатель
— скорректированный (adjusted) коэффициент детерминации. Скорректирован на число степеней свободы позволяет сравнивать две регрессии, одна из которых является укороченной.
Четвертый показатель
— средняя ошибка аппроксимации
Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше А. Если
А<5-7%, то качество модели хорошее.
15
Проверка различных гипотез относительно параметров уравнения.
Схема проверки:
1. Проверка гипотеза о том, что линейная связь между x и y не подтверждается.
2. Проверка гипотез относительно параметров регрессионного уравнения.
16
Проверка гипотеза о том, что линейная связь между x и y не подтверждается
Отсутствие связи можно изучить на основе отклонений расчетных значений от среднего арифметического значения и отклонения расчетных значений от фактических значений .
Близкое к нулю значение свидетельствует об отсутствии какой-либо тенденции для в связи с изменением x.
Н
0
: , (т.е. линейная связь между x и y отсутствует);
H
1
: , (т.е. наличие линейной связи).
Рассчитываем значение F-статистики
F
табл
=
- табличное значение распределения Фишера для вероятности p и степеней свободы m
1
=1, m
2
=n-2.
принимаем H
0
с вероятностью p;
отвергаем H
0
в пользу H
1
с вероятностью p.
17
i
yˆ
y
i
yˆ
(
)
=
−
n
i
i
y
y
1
2
ˆ
i
y
i
y
2 2
2 2
)
ˆ
(
)
2
(
)
ˆ
(
)
ˆ
(
−
=
−
−
−
=
y
y
n
y
y
y
y
F
i
i
i
i
расч
0
ˆ
ˆ
=
= b
a
0
ˆ
ˆ
2 2
+ b
a
расч табл
F
F
расч табл
F
F
p
n
F
2
,
1
−
Проверка гипотез относительно параметров регрессионного уравнения
18
Отдельно исследуется коэффициент регрессии b. Выдвигается гипотеза о том, что x влияет на y несущественно, то есть y изменяется по каким-то другим причинам, а не в связи с изменениями x.
Н
0
: , (т.е. фактор х незначим);
H
1
: , (т.е. фактор х значим).
t-статистика считается по формуле:
где — стандартная ошибка коэффициента b,
вычисляемая по формуле:
По общей процедуре проверки гипотез находим
(в таблице Стьюдента) с заданным уровнем значимости α (вероятностью р=1-α) и степенями свободы v=n-2.
Если
, то с заданной вероятностью гипотезу b=0 отвергаем.
Аналогично проверяется гипотеза о значимости свободного члена а в уравнении регрессии, где
0
ˆ =
b
0
ˆ
b
b
b
b
b
b
t
ˆ
ˆ
=
−
=
b
(
)
(
) (
)
=
=
−
−
−
=
n
i
i
n
i
i
i
b
x
x
n
y
y
1
2
1
2
2
ˆ
табл
t
табл
расч
t
t
(
)
(
) (
)
=
=
−
−
−
=
n
i
i
n
i
i
i
a
y
y
n
y
y
1 2
1 2
2
ˆ
Проверка достоверности оцененных параметров регрессионного уравнения
Возможность применения регрессионного уравнения определяются достоверностью оцененных параметров модели или, по другому, «хорошими» свойствами оценок коэффициентов регрессии:
несмещенностью, состоятельностью и эффективностью оценок.
Параметры регрессионного уравнения, полученные методом наименьших квадратов, являются достоверными тогда и только тогда, когда остаточная компонента ε уравнения удовлетворяет условиям:
1.
Остаточная компонента носит случайный характер.
2.
-мат. ожидание случайной компоненты равно нулю,
3.
- дисперсия случайной компоненты — постоянна,
4.
- отсутствует автокорреляция;
5.
- нормальность распределения.
19 0
)
(
=
i
M
const
D
i
=
=
2
)
(
j
i
j
i
= ,
0
)
,
cov(
)
,
0
(
2
N
i
Проверка случайности остаточной компоненты
20
Для проверки случайного характера остатков ε строят график зависимости остатков от расчетных значений зависимой переменной
Если на графике нет направленности в расположении точек , то остатки ε
случайные величины
.
Если ε зависит от , то остаточная компонента ε не случайна.
Остатки – носят систематический характер
В этих случаях возможно следовало выбрать в качестве регрессионной связи нелинейную зависимость.
yˆ
i
i
yˆ
Выполнение предпосылки МНК
Проверка условия
Выполнение этой предпосылки означает получение несмещенных оценок.
В случае, когда значение
, для проверки соответствующей предпосылки применяю следующий тест:
Н
0
: , (математическое ожидание остатков равно нулю);
H
1
: , (математическое ожидание остатков отлично от нуля).
Рассчитывается значение критерия где
- несмещенное выборочное стандартное отклонение, μ - выборочное среднее.
- табличное значение распределения Стьюдента для вероятности p и степени свободы m=n-1.
принимаем H
0
с вероятностью p;
отвергаем H
0
в пользу H
1
с вероятностью p.
21 0
)
(
=
i
M
(
)
0 1
=
−
=
n
i
i
i
y
y
ˆ
0
)
(
=
i
M
n
t
расч
=
0
)
(
=
i
M
0
)
(
i
M
1
)
(
2
−
−
=
n
i
табл
расч
t
t
табл
расч
t
t
p
n
табл
t
t
1
−
=
Выполнение предпосылки МНК
Проверка условия
Выполнение этой предпосылки означает получение эффективных оценок.
Определение
. Выполнение условия постоянства дисперсии (отсутствие ее роста с ростом независимой переменной) называется
гомоскедастичностью
В противном случае
гетероскедастичностью
гетероскедастичность
гомоскедастичность
22
const
D
i
=
=
2
)
(
2
)
(
i
D
2
)
(
=
i
D
Проверка выполнения условия о постоянстве дисперсии остатков
Тест Гольфелда-Квандта
1.
упорядочение n наблюдений по мере возрастания переменной x;
2.
исключение из рассмотрения C центральных наблюдений, при этом (n-C)/2>p, где p- число оцениваемых параметров;
3. разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора x) и определение по каждой из групп уравнений регрессий;
4 определение остаточной суммы квадратов для первой (S
1
) и второй(S
2
) групп и нахождение их отношения
, где S
1
> S
2
.
При выполнении нулевой гипотезы о гомоскедастичности остатков отношение R будет удовлетворять F-критерию c (n-C-
2p)/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.
23 2
1
S
S
R =
Проверка выполнения условия о постоянстве дисперсии остатков
Применение теста Гольфелда-Квандта (схема)
1.
Все n наблюдений упорядочиваются по величине x
j
2.
Вся упорядоченная выборка разбивается на три подвыборки: определяем количество отбрасываемых наблюдений из расчета n\6.
3.
Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k
последних наблюдений).
4.
Определить остатки (ошибки) для первой и последней группы.
5.
Возводим каждую группу остатков в квадрат и суммируем их.
6.
Сравниваем две полученные суммы при этом разделим наибольшую из них на наименьшую (это будет F
расч
).
7.
Определяем F
табличное со степенями свободы n
1
=n
1
-2 и n
2
= n
2
-2, где n
1,2
-количество наблюдений в первой и соответственно во второй группе
8.
Сравнить F
расч
c F
табл
. Если первое меньше второго, то есть рост дисперсии c увеличением независимого фактора
(имеется гетероскедостичность) и наоборот.
24
Проверка выполнения условия о постоянстве дисперсии остатков
Тест Спирмена.
Суть теста заключается в определении наличия связи между ростом остаточной компоненты и ростом независимого фактора, то есть определение роста дисперсии остатков. Проверяется такая зависимость на основе расчета коэффициента ранговой корреляции Спирмена ρ между остатками модели ε и независимым фактором х.
Проверка статистической значимости коэффициента Спирмена на основе соответствующего t- критерия аналогична проверке нулевой гипотезы об отсутствии гетероскедастичности в остатках.
Существуют и другие тесты для определения гетероскедастичности в остатках, например тест
Глейзера, Уайта.
25
Проверка выполнения условия о постоянстве дисперсии остатков
Определение:
нарушение условия независимости между ошибками для разных наблюдений называется
автокорреляцией
в остатках. То есть имеется зависимость случайных компонент для наблюдений с различными номерами (i и j).
Нарушение условия приводит к получению неэффективных оценок и как следствие невозможности применения полученных моделей в прогнозных целей, в силу ненадежности полученных результатов.
Автокорреляцию можно представить в виде авторегрессии различного порядка, так, например, если текущее значение остатков находится в линейной зависимости от предыдущего порядка
(
), то имеет место
авторегрессия первого порядка (AR(1))
,
если имеет место влияние предпредыдущих значений остатков
, то есть то имеет место
авторегрессия второго порядка (AR(2)
).
Считаем, что номера наблюдений упорядочены по возрастанию номера наблюдения i.
26
i
1
−
i
1
−
i
,
i
i
i
i
e
+
+
=
−
−
2 2
1 1
j
i
j
i
= ,
0
)
,
cov(
Тест на определение автокорреляции в остатках
Тест Дарбина-Уотсона
Тест Дарбина-Уотсона: обнаружение автокорреляции остатков вида
То есть представленных в виде авторегрессии первого порядка.
Н
0
: , (т.е. автокорреляция остатков отсутствует);
H
1
: или , (наличие положительной или отрицательной автокорреляции остатков).
Расчетное значение статистики Дарбина-Уотсона:
- табличные значения распределения Дарбина-Уотсона для степеней свободы n, и вероятности p. Области принятия соответствующих гипотез:
и - зона неопределенности
При проверке наличия автокорреляции на практике руководствуются простым правилом: расчетное значение D-W,
близкое к 2, свидетельствует об отсутствии автокорреляции.
Значение близкое к 4 свидетельствует об отрицательной автокорреляции, а близкое к нулю — о положительной.
Наличие авторегресии II порядка проверяют с тестом Броша-Годфри.
27
i
i
i
e
+
=
−1
0
=
0
0
2 1
, d
d
2 1
d
dw
d
1 2
4 4
d
dw
d
−
−
=
=
−
−
=
n
i
i
n
i
i
i
dw
1 2
2 2
1
)
(
Условие нормальности остатков
Нарушение условия приводит к получению несостоятельных оценок, и как следствие приводящих к ненадежным прогнозам.
Критерий Колмогорова-Смирнова
Н
0
:
,
где - функция нормального распределения (распределение остатков согласуется с нормальным распределением);
H
1
:
, (распределение остатков не согласуется с нормальным распределением).
принимаем H
0
с вероятностью p;
отвергаем H
0
в пользу H
1
с вероятностью p.
28
)
,
0
(
2
N
i
)
(
)
(
0
F
F
=
)
(
0
F
)
(
)
(
0
F
F
расч табл
KS
KS
расч табл
KS
KS
➢ Критерий Шапиро-Уилка
➢ Критерий асимметрии и эксцесса
➢ Критерий Дарбина
➢ Критерий Д’Агостино
➢ Критерий Васичека
➢ Критерий Дэвида-Хартли-Пирсона
➢ Критерий хи-квадрат
➢ Критерий Андерсона-Дарлинга
➢ Критерий Филлибена
➢ Критерий типа Колмогорова-Смирнова
➢ Критерий Мартинса-Иглевича
➢ Критерий Лина-Мудхолкара
➢ Критерий Шпигельхальтера
➢ Критерий Саркади
➢ Критерий Смирнова-Крамера-фон Мизеса
➢ Критерий Локка-Спурье
➢ Критерий Оя
➢ Критерий Хегази-Грина
➢ Критерий Муроты-Такеучи
Список критериев нормальности
http://datascientist.one/proverka
29
Критерий согласия Пирсона
Определение: Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Условия критерия: пусть по выборке объема п получено эмпирическое распределение:
В предположении нормального распределения генеральной совокупности вычислены теоретические частоты
Н
0
: генеральная совокупность распределена нормально.
Н
1
: генеральная совокупность не подчиняется нормальному распределению.
Критерий:
Число степеней свободы: k=s–1–r, где s – число групп (частичных интервалов) выборки, r – число параметров предполагаемого распределения (в случае нормального распределения r=2).
Правило принятия решения:
– нет оснований отвергнуть Н
0
с уровнем значимости α.
30
−
=
i
i
i
i
расч
n
n
n
'
/
)
'
(
2 2
i
n'
2 2
табл
расч
2
табл
2
определяют по таблице - распределения при степенях свободы k и у.з. α.
x
y x
2
y
2
x • y
10 6
100 36 60 12 6
144 36 72 15 7
225 49 105 17 7
289 49 119 18 7
324 49 126 19 8
361 64 152 19 8
361 64 152 20 9
400 81 180 20 9
400 81 180 21 10 441 100 210 171 77 3045 609 1356
Для расчета параметров регрессии построим расчетную таблицу
Пример вычислений
Лекция
Регрессионный
анализ
2
Примеры применение регрессионного анализ
Связь между переменными может быть положительная, отрицательная или отсутствует.
➢ Моделирование числа поступивших в университет для лучшего понимания факторов, удерживающих детей в том же учебном заведении.
➢ Моделирование потоков миграции в зависимости от таких факторов как средний уровень зарплат,
наличие медицинских, школьных учреждений,
географическое положение…
➢ Моделирование дорожных аварий как функции скорости, дорожных условий, погоды и т.д.,
➢ Моделирование потерь от пожаров как функции от таких переменных как количество пожарных станций, время обработки вызова, или цена собственности.
Суть регрессионного анализа заключается в нахождении наиболее важных факторов, которые влияют на зависимую переменную.
3
Термины и концепции регрессионного анализа
Определение:
Уравнение, отражающее зависимость между математическим ожиданием (условного распределения) одной переменной и соответствующими значениями другой переменной, называется
регрессионным уравнением.
Таким образом, регрессионное уравнение может быть записано в виде где М(у/х) — условное математическое ожидание случайной переменной у при заданном значении х. В
частности, для i-го заданного значения уравнение регрессии записывается в виде:
Регрессионное уравнение есть некая регулярная часть зависимости между у и х, фактически наблюдаемое значение , состоит из этой регулярной части и случайной компоненты
:
Наличие случайной компоненты обусловлено двумя причинами:
• любая регрессионная модель является упрощением действительности. (на самом деле существуют другие факторы, от которых также зависит переменная Yi);
• присутствуют ошибки измерения показателей.
4
)
(
i
x
f
x
y
M
=
)
(
)
/
(
i
i
x
f
x
y
M
=
i
i
i
i
x
y
M
y
+
=
)
/
(
Термины и концепции регрессионного анализа
➢ Зависимая переменная(Y) —это переменная, описывающая процесс, который мы пытаемся предсказать или понять.
➢ Независимые переменные (X) это переменные, используемые для моделирования или прогнозирования значений зависимых переменных.
В
уравнении регрессии они располагаются справа от знака равенства и часто называются объяснительными переменными. Зависимая переменная -это функция независимых переменных.
➢ Коэффициенты регрессии —это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой.
➢ Невязки. Существует необъяснимое количество зависимых величин, представленных в уравнении регрессии как случайные ошибки.
5
Последовательность этапов регрессионного анализа
1) Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.
2) Определение зависимых и независимых (объясняющих) переменных.
3) Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.
4) Формулировка гипотезы о форме связи (парная или множественная, линейная или нелинейная).
5) Определение
функции регрессии
(заключается в расчете численных значений параметров уравнения регрессии)
6) Оценка точности регрессионного анализа.
7)
Интерпретация полученных результатов.
Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами.
Оценивается корректность и правдоподобие полученных результатов.
8) Предсказание неизвестных значений зависимой переменной.
6
Однофакторная линейная регрессия
Определение:
Однофакторным линейным регрессионным уравнением называется статистическая связь между зависимой переменной y и независимым фактором (регрессором) х, представленная в виде линейной зависимости.
или
Здесь a и b неизвестные подлежащие оценке параметры регрессии.
Случайная компонента определяется как где:
- расчетные значения, - фактические значения.
и оцененные значения коэффициентов a и b.
7
+
+
=
bx
a
y
i
i
i
bx
a
y
+
+
=
i
i
i
y
y
ˆ
−
=
i
i
x
b
a
y
+
=
ˆ
ˆ
ˆ
i
y
ˆ
i
y
a
ˆ
bˆ
Однофакторная линейная регрессия имеет вид:
Интерпретация коэффициентов регрессии:
b – это коэффициент регрессии, показывающий насколько (как) в среднем изменится y при увеличении или уменьшении x на 1. Если b > 0, то наблюдается прирост y при увеличении x на единицу. Если b <
0, то наблюдается уменьшение y при увеличении x на единицу.
Коэффициент а – свободный член уравнения регрессии (константа), обычно «экономического» смысла он не имеет, но иногда его интерпретируют как начальное значение y, значение у при х=0.
Свободный член регрессии а показывает величину зависимой переменной, при условии, что независимая переменная равна 0.
Коэффициент регрессии и свободный член – размерные величины, их абсолютные значения зависят от единиц измерения зависимой и независимой переменной.
В случае если переменная х – время, рассматривается временной (динамический) ряд.
Однофакторная линейная регрессия
+
+
=
bx
a
y
8
Линейные и нелинейные регрессии.
Линейная регрессия
Нелинейная регрессия
9
Наиболее распространенные виды функций и их преобразование
10
Метод наименьших квадратов
Для того, чтобы теоретическая прямая лежала в непосредственной близости от фактических наблюдений Y
i
необходимо минимизировать сумму квадратов отклонений между фактическими и расчетными значениями :
Запишем необходимое условие экстремума:
или
Раскрывая скобки, получим стандартную форму нормальных уравнений:
Разрешая систему относительно
11
i
i
X
b
a
y
ˆ
ˆ
ˆ
+
=
min
)
ˆ
ˆ
(
)
ˆ
(
1 2
1 2
−
−
=
−
=
=
=
n
i
i
i
n
i
i
i
x
b
a
y
y
y
F
=
=
;
0
ˆ
0
ˆ
b
F
a
F
=
=
=
−
−
−
=
=
−
−
−
=
n
i
i
i
t
n
i
i
i
X
b
a
Y
X
b
F
X
b
a
Y
a
F
1 1
0
)
ˆ
ˆ
(
2 0
)
ˆ
ˆ
(
2
=
=
=
−
−
=
−
−
n
i
i
i
i
n
i
i
i
X
b
a
Y
X
X
b
a
y
1 1
0
)
ˆ
ˆ
(
0
)
ˆ
ˆ
(
=
+
=
+
i
i
i
i
i
i
Y
X
X
b
X
a
Y
X
b
n
a
2
ˆ
ˆ
ˆ
ˆ
(
)(
)
(
)
−
=
−
−
=
b
X
n
Y
n
a
X
X
n
Y
X
Y
X
n
b
i
i
i
i
i
i
i
i
ˆ
1
1
ˆ
ˆ
2
2
b
a ˆ
,
ˆ
Линейная регрессия
Модель – уравнение прямой –
Y = a + b*X
Построение модели – расчет коэффициентов
признак X
пр
изн
ак
Y
- эмпирические значения признака Y
- теоретические значения признака Y
(“Y с крышечкой”)
Прямая должна пройти так, чтобы сумма квадратов отклонений эмпирических значений Y от теоретических была минимальна.
Прямая пройдет через точку (Xср, Yср)
МНК –метод
наименьших
квадратов
i
12
Проверка адекватности линейной регрессии
Определение:
Адекватность
регрессионного
уравнения,
это соответствие его реальному моделируемому процессу, достоверность его параметров.
Схема проверки адекватности уравнения
1. Анализируются показатели качества подгонки регрессионного уравнения ;
2. Проверяются различные гипотезы относительно параметров регрессионного уравнения ;
3. Проверяется выполнение условий для получения «достоверных» оценок методом наименьших квадратов;
4. Производится содержательный анализ регрессионного уравнения.
13
Проверка качества подгонки
Показатели качества подгонки отражают соответствие расчетных значений зависимой переменной фактическим значениям зависимой переменной у. Эти показатели основываются на
Первый показатель
— остаточная дисперсия. Для однофакторного уравнения остаточная дисперсия вычисляется по формуле :
Чем меньше
, тем лучше регрессионное уравнение описывает моделируемый процесс.
является размерной величиной и сопоставление регрессионных уравнений, отражающих различные переменные, измеренные в различных единицах измерения, невозможно.
Второй показатель
— коэффициент детерминации R
2
Коэффициент детерминации вычисляется по формуле :
Коэффициент детерминации принимает значения в интервале от 0 до 1. Чем ближе R
2
к единице, тем лучше качество подгонки регрессионного уравнения, так как R
2
приближается к единице при приближении вычитаемой дроби к 0. В свою очередь указанная дробь приближается к нулю при приближении к нулю числителя, то есть при небольших отклонениях фактических и теоретических значений зависимой переменной. На основании R
2
возможно сопоставление различных уравнений.
14
yˆ
(
)
=
−
n
i
i
i
y
y
1
2
ˆ
2
)
ˆ
(
1
2
2
−
−
=
=
n
y
y
n
i
i
i
(
)
(
)
=
=
−
−
−
=
n
i
i
n
i
i
i
y
y
y
y
R
1
2
1
2
2
ˆ
1
2
2
Третий показатель
— скорректированный (adjusted) коэффициент детерминации. Скорректирован на число степеней свободы позволяет сравнивать две регрессии, одна из которых является укороченной.
Четвертый показатель
— средняя ошибка аппроксимации
Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше А. Если
А<5-7%, то качество модели хорошее.
15
Проверка различных гипотез относительно параметров уравнения.
Схема проверки:
1. Проверка гипотеза о том, что линейная связь между x и y не подтверждается.
2. Проверка гипотез относительно параметров регрессионного уравнения.
16
Проверка гипотеза о том, что линейная связь между x и y не подтверждается
Отсутствие связи можно изучить на основе отклонений расчетных значений от среднего арифметического значения и отклонения расчетных значений от фактических значений .
Близкое к нулю значение свидетельствует об отсутствии какой-либо тенденции для в связи с изменением x.
Н
0
: , (т.е. линейная связь между x и y отсутствует);
H
1
: , (т.е. наличие линейной связи).
Рассчитываем значение F-статистики
F
табл
=
- табличное значение распределения Фишера для вероятности p и степеней свободы m
1
=1, m
2
=n-2.
принимаем H
0
с вероятностью p;
отвергаем H
0
в пользу H
1
с вероятностью p.
17
i
yˆ
y
i
yˆ
(
)
=
−
n
i
i
y
y
1
2
ˆ
i
y
i
y
2 2
2 2
)
ˆ
(
)
2
(
)
ˆ
(
)
ˆ
(
−
=
−
−
−
=
y
y
n
y
y
y
y
F
i
i
i
i
расч
0
ˆ
ˆ
=
= b
a
0
ˆ
ˆ
2 2
+ b
a
расч табл
F
F
расч табл
F
F
p
n
F
2
,
1
−
Проверка гипотез относительно параметров регрессионного уравнения
18
Отдельно исследуется коэффициент регрессии b. Выдвигается гипотеза о том, что x влияет на y несущественно, то есть y изменяется по каким-то другим причинам, а не в связи с изменениями x.
Н
0
: , (т.е. фактор х незначим);
H
1
: , (т.е. фактор х значим).
t-статистика считается по формуле:
где — стандартная ошибка коэффициента b,
вычисляемая по формуле:
По общей процедуре проверки гипотез находим
(в таблице Стьюдента) с заданным уровнем значимости α (вероятностью р=1-α) и степенями свободы v=n-2.
Если
, то с заданной вероятностью гипотезу b=0 отвергаем.
Аналогично проверяется гипотеза о значимости свободного члена а в уравнении регрессии, где
0
ˆ =
b
0
ˆ
b
b
b
b
b
b
t
ˆ
ˆ
=
−
=
b
(
)
(
) (
)
=
=
−
−
−
=
n
i
i
n
i
i
i
b
x
x
n
y
y
1
2
1
2
2
ˆ
табл
t
табл
расч
t
t
(
)
(
) (
)
=
=
−
−
−
=
n
i
i
n
i
i
i
a
y
y
n
y
y
1 2
1 2
2
ˆ
Проверка достоверности оцененных параметров регрессионного уравнения
Возможность применения регрессионного уравнения определяются достоверностью оцененных параметров модели или, по другому, «хорошими» свойствами оценок коэффициентов регрессии:
несмещенностью, состоятельностью и эффективностью оценок.
Параметры регрессионного уравнения, полученные методом наименьших квадратов, являются достоверными тогда и только тогда, когда остаточная компонента ε уравнения удовлетворяет условиям:
1.
Остаточная компонента носит случайный характер.
2.
-мат. ожидание случайной компоненты равно нулю,
3.
- дисперсия случайной компоненты — постоянна,
4.
- отсутствует автокорреляция;
5.
- нормальность распределения.
19 0
)
(
=
i
M
const
D
i
=
=
2
)
(
j
i
j
i
= ,
0
)
,
cov(
)
,
0
(
2
N
i
Проверка случайности остаточной компоненты
20
Для проверки случайного характера остатков ε строят график зависимости остатков от расчетных значений зависимой переменной
Если на графике нет направленности в расположении точек , то остатки ε
случайные величины
.
Если ε зависит от , то остаточная компонента ε не случайна.
Остатки – носят систематический характер
В этих случаях возможно следовало выбрать в качестве регрессионной связи нелинейную зависимость.
yˆ
i
i
yˆ
Выполнение предпосылки МНК
Проверка условия
Выполнение этой предпосылки означает получение несмещенных оценок.
В случае, когда значение
, для проверки соответствующей предпосылки применяю следующий тест:
Н
0
: , (математическое ожидание остатков равно нулю);
H
1
: , (математическое ожидание остатков отлично от нуля).
Рассчитывается значение критерия где
- несмещенное выборочное стандартное отклонение, μ - выборочное среднее.
- табличное значение распределения Стьюдента для вероятности p и степени свободы m=n-1.
принимаем H
0
с вероятностью p;
отвергаем H
0
в пользу H
1
с вероятностью p.
21 0
)
(
=
i
M
(
)
0 1
=
−
=
n
i
i
i
y
y
ˆ
0
)
(
=
i
M
n
t
расч
=
0
)
(
=
i
M
0
)
(
i
M
1
)
(
2
−
−
=
n
i
табл
расч
t
t
табл
расч
t
t
p
n
табл
t
t
1
−
=
Выполнение предпосылки МНК
Проверка условия
Выполнение этой предпосылки означает получение эффективных оценок.
Определение
. Выполнение условия постоянства дисперсии (отсутствие ее роста с ростом независимой переменной) называется
гомоскедастичностью
В противном случае
гетероскедастичностью
гетероскедастичность
гомоскедастичность
22
const
D
i
=
=
2
)
(
2
)
(
i
D
2
)
(
=
i
D
Проверка выполнения условия о постоянстве дисперсии остатков
Тест Гольфелда-Квандта
1.
упорядочение n наблюдений по мере возрастания переменной x;
2.
исключение из рассмотрения C центральных наблюдений, при этом (n-C)/2>p, где p- число оцениваемых параметров;
3. разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора x) и определение по каждой из групп уравнений регрессий;
4 определение остаточной суммы квадратов для первой (S
1
) и второй(S
2
) групп и нахождение их отношения
, где S
1
> S
2
.
При выполнении нулевой гипотезы о гомоскедастичности остатков отношение R будет удовлетворять F-критерию c (n-C-
2p)/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.
23 2
1
S
S
R =
Проверка выполнения условия о постоянстве дисперсии остатков
Применение теста Гольфелда-Квандта (схема)
1.
Все n наблюдений упорядочиваются по величине x
j
2.
Вся упорядоченная выборка разбивается на три подвыборки: определяем количество отбрасываемых наблюдений из расчета n\6.
3.
Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k
последних наблюдений).
4.
Определить остатки (ошибки) для первой и последней группы.
5.
Возводим каждую группу остатков в квадрат и суммируем их.
6.
Сравниваем две полученные суммы при этом разделим наибольшую из них на наименьшую (это будет F
расч
).
7.
Определяем F
табличное со степенями свободы n
1
=n
1
-2 и n
2
= n
2
-2, где n
1,2
-количество наблюдений в первой и соответственно во второй группе
8.
Сравнить F
расч
c F
табл
. Если первое меньше второго, то есть рост дисперсии c увеличением независимого фактора
(имеется гетероскедостичность) и наоборот.
24
Проверка выполнения условия о постоянстве дисперсии остатков
Тест Спирмена.
Суть теста заключается в определении наличия связи между ростом остаточной компоненты и ростом независимого фактора, то есть определение роста дисперсии остатков. Проверяется такая зависимость на основе расчета коэффициента ранговой корреляции Спирмена ρ между остатками модели ε и независимым фактором х.
Проверка статистической значимости коэффициента Спирмена на основе соответствующего t- критерия аналогична проверке нулевой гипотезы об отсутствии гетероскедастичности в остатках.
Существуют и другие тесты для определения гетероскедастичности в остатках, например тест
Глейзера, Уайта.
25
Проверка выполнения условия о постоянстве дисперсии остатков
Определение:
нарушение условия независимости между ошибками для разных наблюдений называется
автокорреляцией
в остатках. То есть имеется зависимость случайных компонент для наблюдений с различными номерами (i и j).
Нарушение условия приводит к получению неэффективных оценок и как следствие невозможности применения полученных моделей в прогнозных целей, в силу ненадежности полученных результатов.
Автокорреляцию можно представить в виде авторегрессии различного порядка, так, например, если текущее значение остатков находится в линейной зависимости от предыдущего порядка
(
), то имеет место
авторегрессия первого порядка (AR(1))
,
если имеет место влияние предпредыдущих значений остатков
, то есть то имеет место
авторегрессия второго порядка (AR(2)
).
Считаем, что номера наблюдений упорядочены по возрастанию номера наблюдения i.
26
i
1
−
i
1
−
i
,
i
i
i
i
e
+
+
=
−
−
2 2
1 1
j
i
j
i
= ,
0
)
,
cov(
Тест на определение автокорреляции в остатках
Тест Дарбина-Уотсона
Тест Дарбина-Уотсона: обнаружение автокорреляции остатков вида
То есть представленных в виде авторегрессии первого порядка.
Н
0
: , (т.е. автокорреляция остатков отсутствует);
H
1
: или , (наличие положительной или отрицательной автокорреляции остатков).
Расчетное значение статистики Дарбина-Уотсона:
- табличные значения распределения Дарбина-Уотсона для степеней свободы n, и вероятности p. Области принятия соответствующих гипотез:
и - зона неопределенности
При проверке наличия автокорреляции на практике руководствуются простым правилом: расчетное значение D-W,
близкое к 2, свидетельствует об отсутствии автокорреляции.
Значение близкое к 4 свидетельствует об отрицательной автокорреляции, а близкое к нулю — о положительной.
Наличие авторегресии II порядка проверяют с тестом Броша-Годфри.
27
i
i
i
e
+
=
−1
0
=
0
0
2 1
, d
d
2 1
d
dw
d
1 2
4 4
d
dw
d
−
−
=
=
−
−
=
n
i
i
n
i
i
i
dw
1 2
2 2
1
)
(
Условие нормальности остатков
Нарушение условия приводит к получению несостоятельных оценок, и как следствие приводящих к ненадежным прогнозам.
Критерий Колмогорова-Смирнова
Н
0
:
,
где - функция нормального распределения (распределение остатков согласуется с нормальным распределением);
H
1
:
, (распределение остатков не согласуется с нормальным распределением).
принимаем H
0
с вероятностью p;
отвергаем H
0
в пользу H
1
с вероятностью p.
28
)
,
0
(
2
N
i
)
(
)
(
0
F
F
=
)
(
0
F
)
(
)
(
0
F
F
расч табл
KS
KS
расч табл
KS
KS
➢ Критерий Шапиро-Уилка
➢ Критерий асимметрии и эксцесса
➢ Критерий Дарбина
➢ Критерий Д’Агостино
➢ Критерий Васичека
➢ Критерий Дэвида-Хартли-Пирсона
➢ Критерий хи-квадрат
➢ Критерий Андерсона-Дарлинга
➢ Критерий Филлибена
➢ Критерий типа Колмогорова-Смирнова
➢ Критерий Мартинса-Иглевича
➢ Критерий Лина-Мудхолкара
➢ Критерий Шпигельхальтера
➢ Критерий Саркади
➢ Критерий Смирнова-Крамера-фон Мизеса
➢ Критерий Локка-Спурье
➢ Критерий Оя
➢ Критерий Хегази-Грина
➢ Критерий Муроты-Такеучи
Список критериев нормальности
http://datascientist.one/proverka
29
Критерий согласия Пирсона
Определение: Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Условия критерия: пусть по выборке объема п получено эмпирическое распределение:
В предположении нормального распределения генеральной совокупности вычислены теоретические частоты
Н
0
: генеральная совокупность распределена нормально.
Н
1
: генеральная совокупность не подчиняется нормальному распределению.
Критерий:
Число степеней свободы: k=s–1–r, где s – число групп (частичных интервалов) выборки, r – число параметров предполагаемого распределения (в случае нормального распределения r=2).
Правило принятия решения:
– нет оснований отвергнуть Н
0
с уровнем значимости α.
30
−
=
i
i
i
i
расч
n
n
n
'
/
)
'
(
2 2
i
n'
2 2
табл
расч
2
табл
2
определяют по таблице - распределения при степенях свободы k и у.з. α.
x
y x
2
y
2
x • y
10 6
100 36 60 12 6
144 36 72 15 7
225 49 105 17 7
289 49 119 18 7
324 49 126 19 8
361 64 152 19 8
361 64 152 20 9
400 81 180 20 9
400 81 180 21 10 441 100 210 171 77 3045 609 1356
Для расчета параметров регрессии построим расчетную таблицу
Пример вычислений
y x
2
y
2
x • y
10 6
100 36 60 12 6
144 36 72 15 7
225 49 105 17 7
289 49 119 18 7
324 49 126 19 8
361 64 152 19 8
361 64 152 20 9
400 81 180 20 9
400 81 180 21 10 441 100 210 171 77 3045 609 1356
Для расчета параметров регрессии построим расчетную таблицу
Пример вычислений