Файл: Многомерная регрессия.pptx

Министерство по развитию информационных технологий и коммуникаций Республики Узбекистан Каршинский филиал ташкенского университета информационных технологий имени Аль Хорезми телекоммуникация факультет Подготовил НАБИЕВ АБДУЛАЗИЗ Группы тт-12-21

Множественная регрессия

Лекция

Цели лекции

Обобщение парной регрессии на случай нескольких объясняющих переменных
Интерпретация множественной регрессии
Качество множественной регрессии
Новые возможности регрессии

Виды множественной регрессии

1. Классическая линейная регрессия

2. Нелинейная регрессия

3. Специальные виды переменных

Модель множественной регрессии

Множественная регрессия имеет вид:

Уравнение множественной регрессии:

где X = (X1, X2,  , Xm)  вектор объясняющих переменных,

  вектор параметров (подлежащих определению),

  вектор случайных ошибок (отклонений),

Y  зависимая переменная.

Линейная модель множественной регрессии

Теоретическое уравнение линейной множественной

регрессии:

или для индивидуальных наблюдений:

i = 1, 2,  , n, n  m+1, k = nm1  число степеней свободы

Для обеспечения статистической надежности должно выполняться условие:

Оценки параметров линейной множественной регрессии

Эмпирическое уравнение регрессии:

Самый распространенный метод оценки параметров – МНК

Предпосылки МНК

Гомоскедастичность

Отсутствие автокорреляции

50. Модель является линейной относительно параметров

Дополнительные предпосылки МНК

60. Отсутствие мультиколлинеарности: между объясняющими переменными отсутствует строгая (сильная) линейная зависимость

70. Ошибки i имеют нормальное распределение:

При выполнении этих предпосылок МНК-оценки коэффициентов множественной регрессии будут несмещенными, состоятельными и эффективными в классе линейных оценок

Матричная форма СЛАУ:

переменной X1 выражает предельный прирост

переменной X1 , при условии постоянства других

переменных:

Интерпретация множественной логарифмической регрессии

переменной lnX1 выражает эластичность

других переменных:

Величина оценки коэффициента регрессии формируется

под влиянием не только связи изучаемого фактора с

зависимой переменной, но и структуры связей между

объясняемыми переменными

Оценка коэффициента регрессии:

Рассмотрим проявление множественных связей в

парной регрессии (в случае исключения значимой

переменной X2):

В случае исключения значимой переменной X2 часть

изменений Y за счет X2 будет приписана X1 , если

переменная X1 может замещать X2. В результате оценка

значения 1 будет смещена.

Интерпретация множественной регрессии: замещающие переменные

Замещающая переменная – это переменная,

коррелирующая с отсутствующей переменной

уравнения множественной регрессии, и

выполняющая за счет этого функции

отсутствующей переменной

Включение замещающей переменной позволяет правильно оценить роль других факторов, освободив их от функции замещения отсутствующих переменных

Анализ предельного вклада факторов

Множественная регрессия позволяет

разложить суммарное влияние факторов на

составные части, точнее выявив

предельный вклад каждого фактора

Система показателей качества множественной регрессии

1. Показатели качества коэффициентов

регрессии

2. Показатели качества уравнения в целом

Показатели качества коэффициентов регрессии

1. Стандартные ошибки оценок.

2. Значения t-статистик.

3. Интервальные оценки коэффициентов линейного уравнения регрессии.

4. Доверительные области для зависимой переменной.

Ковариационная матрица вектора оценок коэффициентов регрессии

На главной диагонали матрицы находятся дисперсии оценок коэффициентов регрессии:

Ковариационная матрица вектора возмущений

Матрица  обладает следующими свойствами:

1. Все элементы, не лежащие на главной диагонали, равны нулю (30).

2. Все элементы, лежащие на главной диагонали равны (10 и 20):

Можно показать, что

Поскольку истинное значение дисперсии 2 по выборке определить нельзя, заменяем его несмещенной оценкой:

Из (1) и (2) следует формула для расчета выборочных дисперсий эмпирических коэффициентов регрессии:

Здесь  диагональные элементы матрицы

Как и в случае парной регрессии:

 стандартная ошибка регрессии

 стандартные ошибки коэффициентов

Стандартные ошибки коэффициентов модели с двумя переменными

Расчет стандартных ошибок коэффициентов регрессии для случая двух факторов:

Значимость коэффициентов регрессии

Значимость коэффициентов множественной регрессии проверяется по t-критерию Стьюдента:

t-тесты обеспечивают проверку значимости предельного вклада каждой переменной при допущении, что все остальные переменные уже включены в модель

 расчетное значение t-статистики коэффициента bj

Незначимость коэффициента регрессии не всегда может служить основанием для исключения соответствующей переменной из модели

Доверительные интервалы для коэффициентов регрессии

Данный доверительный интервал накрывает с надежностью (1) истинное значение коэффициента регрессии

Доверительная область для условного математического ожидания зависимой переменной

Доверительная область для индивидуальных значений Y

Показатели качества уравнения регрессии в целом

Основные показатели качества:

Коэффициент детерминации R2
Скорректированный коэффициент детерминации
Значение F-статистики
Сумма квадратов остатков (RSS)
Стандартная ошибка регрессии Se
Прочие показатели: средняя ошибка аппроксимации, индекс множественной корреляции и т.д.

Коэффициент детерминации R2

Коэффициент R2 показывает долю

объясненной вариации зависимой

переменной:

Низкое значение R2 не свидетельствует о плохом качестве модели, и может объясняться наличием существенных факторов, не включенных в модель

Коэффициенты R2 в разных моделях с разным числом наблюдений (и переменных) несравнимы

R2 всегда увеличивается с включением новой переменной

Скорректированный коэффициент детерминации

показывает долю объясненной вариации зависимой

переменной с учетом числа объясняющих переменных

уравнения регрессии:

Скорректированные коэффициенты в разных моделях с разным числом наблюдений (и переменных) ограниченно сравнимы

Добавление переменной приведет к увеличению , если ее t-статистика будет по модулю больше 1. Следовательно, увеличение при добавлении новой переменной необязательно означает, что ее коэффициент значимо отличается от нуля

F-статистика для проверки качества уравнения регрессии

F-статистика представляет собой отношение объясненной

суммы квадратов (в расчете на одну независимую переменную)

к остаточной сумме квадратов (в расчете на одну степень

свободы)

n – число выборочных наблюдений, m – число объясняющих переменных

F-статистика для проверки значимости коэффициента R2

F-статистика рассчитывается на основе коэффициента детерминации

Для проверки значимости F-статистики используются таблицы F-распределения с m и (n–m–1) степеней свободы

Сумма квадратов остатков RSS

Является оценкой необъясненной части вариации

зависимой переменной

Используется как основная минимизируемая величина в МНК, а также для расчета других показателей

Значения RSS в разных моделях с разным числом наблюдений и (или) переменных несравнимы

Стандартная ошибка регрессии Se

Является оценкой величины квадрата ошибки,

приходящейся на одну степень свободы модели

Используется как основная величина для измерения качества модели (чем она меньше, тем лучше)

Значения Se в однотипных моделях с разным числом наблюдений и (или) переменных сравнимы

Расчет эластичности для линейной регрессии

Средние коэффициенты эластичности:

Частные коэффициенты эластичности:

Тесноту совместного влияния факторов на

результат характеризует индекс (показатель)

множественной корреляции:

Диапазон значений лежит от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака Y со всем набором объясняющих факторов Xi

Справедливо неравенство:

При правильном включении факторов в модель индекс множественной корреляции будет существенно превосходить наибольшее из значений коэффициента парной корреляции