Файл: ЛекцияРегрессионный анализ.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 23.11.2023

Просмотров: 22

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.


Лекция
Регрессионный
анализ

2

Примеры применение регрессионного анализ
Связь между переменными может быть положительная, отрицательная или отсутствует.
➢ Моделирование числа поступивших в университет для лучшего понимания факторов, удерживающих детей в том же учебном заведении.
➢ Моделирование потоков миграции в зависимости от таких факторов как средний уровень зарплат,
наличие медицинских, школьных учреждений,
географическое положение…
➢ Моделирование дорожных аварий как функции скорости, дорожных условий, погоды и т.д.,
➢ Моделирование потерь от пожаров как функции от таких переменных как количество пожарных станций, время обработки вызова, или цена собственности.
Суть регрессионного анализа заключается в нахождении наиболее важных факторов, которые влияют на зависимую переменную.
3

Термины и концепции регрессионного анализа
Определение:
Уравнение, отражающее зависимость между математическим ожиданием (условного распределения) одной переменной и соответствующими значениями другой переменной, называется
регрессионным уравнением.
Таким образом, регрессионное уравнение может быть записано в виде где М(у/х) — условное математическое ожидание случайной переменной у при заданном значении х. В
частности, для i-го заданного значения уравнение регрессии записывается в виде:
Регрессионное уравнение есть некая регулярная часть зависимости между у и х, фактически наблюдаемое значение , состоит из этой регулярной части и случайной компоненты
:
Наличие случайной компоненты обусловлено двумя причинами:
• любая регрессионная модель является упрощением действительности. (на самом деле существуют другие факторы, от которых также зависит переменная Yi);
• присутствуют ошибки измерения показателей.
4
)
(
i
x
f
x
y
M
=






)
(
)
/
(
i
i
x
f
x
y
M
=
i

i
i
i
x
y
M
y

+
=
)
/
(

Термины и концепции регрессионного анализа
Зависимая переменная(Y) —это переменная, описывающая процесс, который мы пытаемся предсказать или понять.
Независимые переменные (X) это переменные, используемые для моделирования или прогнозирования значений зависимых переменных.
В
уравнении регрессии они располагаются справа от знака равенства и часто называются объяснительными переменными. Зависимая переменная -это функция независимых переменных.
Коэффициенты регрессии —это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой.
Невязки. Существует необъяснимое количество зависимых величин, представленных в уравнении регрессии как случайные ошибки.
5

Последовательность этапов регрессионного анализа
1) Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.
2) Определение зависимых и независимых (объясняющих) переменных.
3) Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.
4) Формулировка гипотезы о форме связи (парная или множественная, линейная или нелинейная).
5) Определение
функции регрессии
(заключается в расчете численных значений параметров уравнения регрессии)
6) Оценка точности регрессионного анализа.
7)
Интерпретация полученных результатов.
Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами.
Оценивается корректность и правдоподобие полученных результатов.
8) Предсказание неизвестных значений зависимой переменной.
6

Однофакторная линейная регрессия
Определение:
Однофакторным линейным регрессионным уравнением называется статистическая связь между зависимой переменной y и независимым фактором (регрессором) х, представленная в виде линейной зависимости.
или
Здесь a и b неизвестные подлежащие оценке параметры регрессии.
Случайная компонента определяется как где:
- расчетные значения, - фактические значения.
и оцененные значения коэффициентов a и b.
7

+
+
=
bx
a
y
i
i
i
bx
a
y

+
+
=
i
i
i
y
y
ˆ

=

i
i
x
b
a
y

+
=
ˆ
ˆ
ˆ
i
y
ˆ
i
y
a
ˆ
bˆ

Однофакторная линейная регрессия имеет вид:
Интерпретация коэффициентов регрессии:
b – это коэффициент регрессии, показывающий насколько (как) в среднем изменится y при увеличении или уменьшении x на 1. Если b > 0, то наблюдается прирост y при увеличении x на единицу. Если b <
0, то наблюдается уменьшение y при увеличении x на единицу.
Коэффициент а – свободный член уравнения регрессии (константа), обычно «экономического» смысла он не имеет, но иногда его интерпретируют как начальное значение y, значение у при х=0.
Свободный член регрессии а показывает величину зависимой переменной, при условии, что независимая переменная равна 0.
Коэффициент регрессии и свободный член – размерные величины, их абсолютные значения зависят от единиц измерения зависимой и независимой переменной.
В случае если переменная х – время, рассматривается временной (динамический) ряд.
Однофакторная линейная регрессия

+
+
=
bx
a
y
8

Линейные и нелинейные регрессии.
Линейная регрессия
Нелинейная регрессия
9

Наиболее распространенные виды функций и их преобразование
10

Метод наименьших квадратов
Для того, чтобы теоретическая прямая лежала в непосредственной близости от фактических наблюдений Y
i
необходимо минимизировать сумму квадратов отклонений между фактическими и расчетными значениями :
Запишем необходимое условие экстремума:
или
Раскрывая скобки, получим стандартную форму нормальных уравнений:
Разрешая систему относительно
11
i
i
X
b
a
y
ˆ
ˆ
ˆ
+
=
min
)
ˆ
ˆ
(
)
ˆ
(
1 2
1 2



=

=


=
=
n
i
i
i
n
i
i
i
x
b
a
y
y
y
F







=


=


;
0
ˆ
0
ˆ
b
F
a
F


=
=
=



=


=



=


n
i
i
i
t
n
i
i
i
X
b
a
Y
X
b
F
X
b
a
Y
a
F
1 1
0
)
ˆ
ˆ
(
2 0
)
ˆ
ˆ
(
2


=
=
=


=


n
i
i
i
i
n
i
i
i
X
b
a
Y
X
X
b
a
y
1 1
0
)
ˆ
ˆ
(
0
)
ˆ
ˆ
(





=
+
=
+
i
i
i
i
i
i
Y
X
X
b
X
a
Y
X
b
n
a
2
ˆ
ˆ
ˆ
ˆ
(
)(
)
(
)









=


=
b
X
n
Y
n
a
X
X
n
Y
X
Y
X
n
b
i
i
i
i
i
i
i
i
ˆ
1
1
ˆ
ˆ
2
2
b
a ˆ
,
ˆ

Линейная регрессия
Модель – уравнение прямой –
Y = a + b*X
Построение модели – расчет коэффициентов
признак X
пр
изн
ак
Y
- эмпирические значения признака Y
- теоретические значения признака Y
(“Y с крышечкой”)
Прямая должна пройти так, чтобы сумма квадратов отклонений эмпирических значений Y от теоретических была минимальна.
Прямая пройдет через точку (Xср, Yср)
МНК –метод
наименьших
квадратов
i

12

Проверка адекватности линейной регрессии
Определение:
Адекватность
регрессионного
уравнения,
это соответствие его реальному моделируемому процессу, достоверность его параметров.
Схема проверки адекватности уравнения
1. Анализируются показатели качества подгонки регрессионного уравнения ;
2. Проверяются различные гипотезы относительно параметров регрессионного уравнения ;
3. Проверяется выполнение условий для получения «достоверных» оценок методом наименьших квадратов;
4. Производится содержательный анализ регрессионного уравнения.
13

Проверка качества подгонки
Показатели качества подгонки отражают соответствие расчетных значений зависимой переменной фактическим значениям зависимой переменной у. Эти показатели основываются на
Первый показатель
остаточная дисперсия. Для однофакторного уравнения остаточная дисперсия вычисляется по формуле :
Чем меньше
, тем лучше регрессионное уравнение описывает моделируемый процесс.
является размерной величиной и сопоставление регрессионных уравнений, отражающих различные переменные, измеренные в различных единицах измерения, невозможно.
Второй показатель
коэффициент детерминации R
2
Коэффициент детерминации вычисляется по формуле :
Коэффициент детерминации принимает значения в интервале от 0 до 1. Чем ближе R
2
к единице, тем лучше качество подгонки регрессионного уравнения, так как R
2
приближается к единице при приближении вычитаемой дроби к 0. В свою очередь указанная дробь приближается к нулю при приближении к нулю числителя, то есть при небольших отклонениях фактических и теоретических значений зависимой переменной. На основании R
2
возможно сопоставление различных уравнений.
14
yˆ
(
)

=

n
i
i
i
y
y
1
2
ˆ
2
)
ˆ
(
1
2
2


=

=
n
y
y
n
i
i
i

(
)
(
)


=
=



=
n
i
i
n
i
i
i
y
y
y
y
R
1
2
1
2
2
ˆ
1
2

2


Третий показатель
скорректированный (adjusted) коэффициент детерминации. Скорректирован на число степеней свободы позволяет сравнивать две регрессии, одна из которых является укороченной.
Четвертый показатель
средняя ошибка аппроксимации
Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше А. Если
А<5-7%, то качество модели хорошее.
15

Проверка различных гипотез относительно параметров уравнения.
Схема проверки:
1. Проверка гипотеза о том, что линейная связь между x и y не подтверждается.
2. Проверка гипотез относительно параметров регрессионного уравнения.
16

Проверка гипотеза о том, что линейная связь между x и y не подтверждается
Отсутствие связи можно изучить на основе отклонений расчетных значений от среднего арифметического значения и отклонения расчетных значений от фактических значений .
Близкое к нулю значение свидетельствует об отсутствии какой-либо тенденции для в связи с изменением x.
Н
0
: , (т.е. линейная связь между x и y отсутствует);
H
1
: , (т.е. наличие линейной связи).
Рассчитываем значение F-статистики
F
табл
=
- табличное значение распределения Фишера для вероятности p и степеней свободы m
1
=1, m
2
=n-2.
принимаем H
0
с вероятностью p;
отвергаем H
0
в пользу H
1
с вероятностью p.
17
i
yˆ
y
i
yˆ
(
)

=

n
i
i
y
y
1
2
ˆ
i
y
i
y
2 2
2 2
)
ˆ
(
)
2
(
)
ˆ
(
)
ˆ
(





=



=
y
y
n
y
y
y
y
F
i
i
i
i
расч
0
ˆ
ˆ
=
= b
a
0
ˆ
ˆ
2 2

+ b
a


расч табл
F
F


расч табл
F
F
p
n
F
2
,
1


Проверка гипотез относительно параметров регрессионного уравнения
18
Отдельно исследуется коэффициент регрессии b. Выдвигается гипотеза о том, что x влияет на y несущественно, то есть y изменяется по каким-то другим причинам, а не в связи с изменениями x.
Н
0
: , (т.е. фактор х незначим);
H
1
: , (т.е. фактор х значим).
t-статистика считается по формуле:
где — стандартная ошибка коэффициента b,
вычисляемая по формуле:
По общей процедуре проверки гипотез находим
(в таблице Стьюдента) с заданным уровнем значимости α (вероятностью р=1-α) и степенями свободы v=n-2.
Если
, то с заданной вероятностью гипотезу b=0 отвергаем.
Аналогично проверяется гипотеза о значимости свободного члена а в уравнении регрессии, где
0
ˆ =
b
0
ˆ 
b
b
b
b
b
b
t


ˆ
ˆ
=

=
b

(
)
(
) (
)


=
=



=
n
i
i
n
i
i
i
b
x
x
n
y
y
1
2
1
2
2
ˆ

табл
t
табл
расч
t
t

(
)
(
) (
)


=
=



=
n
i
i
n
i
i
i
a
y
y
n
y
y
1 2
1 2
2
ˆ


Проверка достоверности оцененных параметров регрессионного уравнения
Возможность применения регрессионного уравнения определяются достоверностью оцененных параметров модели или, по другому, «хорошими» свойствами оценок коэффициентов регрессии:
несмещенностью, состоятельностью и эффективностью оценок.
Параметры регрессионного уравнения, полученные методом наименьших квадратов, являются достоверными тогда и только тогда, когда остаточная компонента ε уравнения удовлетворяет условиям:
1.
Остаточная компонента носит случайный характер.
2.
-мат. ожидание случайной компоненты равно нулю,
3.
- дисперсия случайной компоненты — постоянна,
4.
- отсутствует автокорреляция;
5.
- нормальность распределения.
19 0
)
(
=
i
M

const
D
i
=
=
2


)
(
j
i
j
i

= ,
0
)
,
cov(


)
,
0
(

2


N
i

Проверка случайности остаточной компоненты
20
Для проверки случайного характера остатков ε строят график зависимости остатков от расчетных значений зависимой переменной
Если на графике нет направленности в расположении точек , то остатки ε
случайные величины
.
Если ε зависит от , то остаточная компонента ε не случайна.
Остатки – носят систематический характер
В этих случаях возможно следовало выбрать в качестве регрессионной связи нелинейную зависимость.
yˆ
i

i

yˆ

Выполнение предпосылки МНК
Проверка условия
Выполнение этой предпосылки означает получение несмещенных оценок.
В случае, когда значение
, для проверки соответствующей предпосылки применяю следующий тест:
Н
0
: , (математическое ожидание остатков равно нулю);
H
1
: , (математическое ожидание остатков отлично от нуля).
Рассчитывается значение критерия где
- несмещенное выборочное стандартное отклонение, μ - выборочное среднее.
- табличное значение распределения Стьюдента для вероятности p и степени свободы m=n-1.
принимаем H
0
с вероятностью p;
отвергаем H
0
в пользу H
1
с вероятностью p.
21 0
)
(
=
i
M

(
)
0 1
=


=
n
i
i
i
y
y
ˆ
0
)
(
=
i
M

n
t
расч


=
0
)
(
=
i
M

0
)
(

i
M

1
)
(
2


=

n
i





табл
расч
t
t


табл
расч
t
t
p
n
табл
t
t
1

=

Выполнение предпосылки МНК
Проверка условия
Выполнение этой предпосылки означает получение эффективных оценок.
Определение
. Выполнение условия постоянства дисперсии (отсутствие ее роста с ростом независимой переменной) называется
гомоскедастичностью
В противном случае
гетероскедастичностью
гетероскедастичность
гомоскедастичность
22
const
D
i
=
=
2


)
(
2
)
(



i
D
2
)
(


=
i
D

Проверка выполнения условия о постоянстве дисперсии остатков
Тест Гольфелда-Квандта
1.
упорядочение n наблюдений по мере возрастания переменной x;
2.
исключение из рассмотрения C центральных наблюдений, при этом (n-C)/2>p, где p- число оцениваемых параметров;
3. разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора x) и определение по каждой из групп уравнений регрессий;
4 определение остаточной суммы квадратов для первой (S
1
) и второй(S
2
) групп и нахождение их отношения
, где S
1
> S
2
.
При выполнении нулевой гипотезы о гомоскедастичности остатков отношение R будет удовлетворять F-критерию c (n-C-
2p)/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.
23 2
1
S
S
R =

Проверка выполнения условия о постоянстве дисперсии остатков
Применение теста Гольфелда-Квандта (схема)
1.
Все n наблюдений упорядочиваются по величине x
j
2.
Вся упорядоченная выборка разбивается на три подвыборки: определяем количество отбрасываемых наблюдений из расчета n\6.
3.
Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k
последних наблюдений).
4.
Определить остатки (ошибки) для первой и последней группы.
5.
Возводим каждую группу остатков в квадрат и суммируем их.
6.
Сравниваем две полученные суммы при этом разделим наибольшую из них на наименьшую (это будет F
расч
).
7.
Определяем F
табличное со степенями свободы n
1
=n
1
-2 и n
2
= n
2
-2, где n
1,2
-количество наблюдений в первой и соответственно во второй группе
8.
Сравнить F
расч
c F
табл
. Если первое меньше второго, то есть рост дисперсии c увеличением независимого фактора
(имеется гетероскедостичность) и наоборот.
24

Проверка выполнения условия о постоянстве дисперсии остатков
Тест Спирмена.
Суть теста заключается в определении наличия связи между ростом остаточной компоненты и ростом независимого фактора, то есть определение роста дисперсии остатков. Проверяется такая зависимость на основе расчета коэффициента ранговой корреляции Спирмена ρ между остатками модели ε и независимым фактором х.
Проверка статистической значимости коэффициента Спирмена на основе соответствующего t- критерия аналогична проверке нулевой гипотезы об отсутствии гетероскедастичности в остатках.
Существуют и другие тесты для определения гетероскедастичности в остатках, например тест
Глейзера, Уайта.
25

Проверка выполнения условия о постоянстве дисперсии остатков
Определение:
нарушение условия независимости между ошибками для разных наблюдений называется
автокорреляцией
в остатках. То есть имеется зависимость случайных компонент для наблюдений с различными номерами (i и j).
Нарушение условия приводит к получению неэффективных оценок и как следствие невозможности применения полученных моделей в прогнозных целей, в силу ненадежности полученных результатов.
Автокорреляцию можно представить в виде авторегрессии различного порядка, так, например, если текущее значение остатков находится в линейной зависимости от предыдущего порядка
(
), то имеет место
авторегрессия первого порядка (AR(1))
,
если имеет место влияние предпредыдущих значений остатков
, то есть то имеет место
авторегрессия второго порядка (AR(2)
).
Считаем, что номера наблюдений упорядочены по возрастанию номера наблюдения i.
26
i

1

i

1

i

,
i
i
i
i
e
+
+
=


2 2
1 1





j
i
j
i

= ,
0
)
,
cov(



Тест на определение автокорреляции в остатках
Тест Дарбина-Уотсона
Тест Дарбина-Уотсона: обнаружение автокорреляции остатков вида
То есть представленных в виде авторегрессии первого порядка.
Н
0
: , (т.е. автокорреляция остатков отсутствует);
H
1
: или , (наличие положительной или отрицательной автокорреляции остатков).
Расчетное значение статистики Дарбина-Уотсона:
- табличные значения распределения Дарбина-Уотсона для степеней свободы n, и вероятности p. Области принятия соответствующих гипотез:
и - зона неопределенности
При проверке наличия автокорреляции на практике руководствуются простым правилом: расчетное значение D-W,
близкое к 2, свидетельствует об отсутствии автокорреляции.
Значение близкое к 4 свидетельствует об отрицательной автокорреляции, а близкое к нулю — о положительной.
Наличие авторегресии II порядка проверяют с тестом Броша-Годфри.
27
i
i
i
e
+
=
−1


0
=

0


0


2 1
, d
d
2 1
d
dw
d


1 2
4 4
d
dw
d






=
=


=
n
i
i
n
i
i
i
dw
1 2
2 2
1
)
(




Условие нормальности остатков
Нарушение условия приводит к получению несостоятельных оценок, и как следствие приводящих к ненадежным прогнозам.
Критерий Колмогорова-Смирнова
Н
0
:
,
где - функция нормального распределения (распределение остатков согласуется с нормальным распределением);
H
1
:
, (распределение остатков не согласуется с нормальным распределением).
принимаем H
0
с вероятностью p;
отвергаем H
0
в пользу H
1
с вероятностью p.
28
)
,
0
(

2


N
i
)
(
)
(
0


F
F
=
)
(
0

F
)
(
)
(
0


F
F



расч табл
KS
KS


расч табл
KS
KS

➢ Критерий Шапиро-Уилка
➢ Критерий асимметрии и эксцесса
➢ Критерий Дарбина
➢ Критерий Д’Агостино
➢ Критерий Васичека
➢ Критерий Дэвида-Хартли-Пирсона
➢ Критерий хи-квадрат
➢ Критерий Андерсона-Дарлинга
➢ Критерий Филлибена
➢ Критерий типа Колмогорова-Смирнова
➢ Критерий Мартинса-Иглевича
➢ Критерий Лина-Мудхолкара
➢ Критерий Шпигельхальтера
➢ Критерий Саркади
➢ Критерий Смирнова-Крамера-фон Мизеса
➢ Критерий Локка-Спурье
➢ Критерий Оя
➢ Критерий Хегази-Грина
➢ Критерий Муроты-Такеучи
Список критериев нормальности
http://datascientist.one/proverka
29

Критерий согласия Пирсона
Определение: Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Условия критерия: пусть по выборке объема п получено эмпирическое распределение:
В предположении нормального распределения генеральной совокупности вычислены теоретические частоты
Н
0
: генеральная совокупность распределена нормально.
Н
1
: генеральная совокупность не подчиняется нормальному распределению.
Критерий:
Число степеней свободы: k=s–1–r, где s – число групп (частичных интервалов) выборки, r – число параметров предполагаемого распределения (в случае нормального распределения r=2).
Правило принятия решения:
– нет оснований отвергнуть Н
0
с уровнем значимости α.
30


=
i
i
i
i
расч
n
n
n
'
/
)
'
(
2 2

i
n'
2 2
табл
расч



2
табл

2

определяют по таблице - распределения при степенях свободы k и у.з. α.
x
y x
2
y
2
x • y
10 6
100 36 60 12 6
144 36 72 15 7
225 49 105 17 7
289 49 119 18 7
324 49 126 19 8
361 64 152 19 8
361 64 152 20 9
400 81 180 20 9
400 81 180 21 10 441 100 210 171 77 3045 609 1356
Для расчета параметров регрессии построим расчетную таблицу
Пример вычислений