ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 04.12.2023
Просмотров: 379
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
СОДЕРЖАНИЕ
2.1. Основные цели и задачи прикладного корреляционно-регрессионного анализа
2.2. Постановка задачи регрессии
2.4. Коэффициент корреляции, коэффициент детерминации, корреляционное отношение
3. Классическая линейная модель множественной регрессии
3.2. Оценивание коэффициентов КЛММР
или переобозначив:
с учетом (4.10) , получим модель
, (4.13)
для случайного члена которой выполняется условие (4.11), т.е. автокорреляция отсутствует. При указанном преобразовании первое наблюдение умножается на , т.е. , .
б) Применяем обыкновенный МНК к модели (4.13).
В общем случае мы не располагаем информацией о порядке автокорреляции и значениях параметров в авторегрессионном уравнении, а значит, и методы 1 и 2 не дадут искомого результата.
Тем не менее, оценки коэффициентов можно найти приближенно с помощью следующих методов (опять в целях упрощения, не нарушая общности, иллюстрация методов дана для случая парной регрессии).
Метод 3. Итеративная процедура Кохрейна-Оркатта.
а) Оценивается регрессия с исходными не преобразованными данными с помощью обыкновенного МНК.
б) Вычисляются остатки ei.
в) Оценивается регрессия ei=ei-1+i, и коэффициент при ei-1 дает оценку .
г) С учетом полученной оценки уравнение преобразовывается к виду (4.13), оценивание которого позволяет получить пересмотренные оценки коэффициентов 0 и 1.
д) Вычисляются остатки регрессии (4.13) и процесс выполняется снова, начиная с этапа в).
Итерации заканчиваются, когда абсолютные разности последовательных значений оценок коэффициентов 0, 1 и будут меньше заданного числа (точности).
Подобная процедура оценивания порождает проблемы, касающиеся сходимости итерационного процесса и характера найденного минимума: локальный или глобальный.
Метод 4. Метод Хилдрета-Лу основан на тех же принципах, что и рассмотренный метод 3, но использует другой алгоритм вычислений. Здесь регрессия (4.13) оценивается МНК для каждого значения
из диапазона [-1, 1] с некоторым шагом внутри него. Значение, которое дает минимальную стандартную ошибку для преобразованного уравнения (4.13), принимается в качестве оценки , а коэффициенты регрессии определяются при оценивании уравнения (4.13) с использованием этого значения.
Метод 5. Дарбиным была предложена простая схема, дающая эффективные оценки коэффициентов:
а). Подставляя (4.10) в модель Yi=0+1Xi+ui, получим с учетом ui-1 = Yi-1 0 1Xi-1:
Yi=0(1)+Yi-1+1(Xi Xi-1) + i,
где ошибка i удовлетворяет (4.11). Применяя обыкновенный МНК к последней модели, получаем оценку как коэффициента при Yi-1.
б). Вычисляем значения преобразованных переменных и применяем к ним обыкновенный МНК. Получаем искомые оценки коэффициентов регрессии.
Достоинством метода является простота его распространения на случай автокорреляции более высокого порядка.
Как показывают эксперименты, проведенные для малых выборок, лучшим является двухшаговый метод 2, использующий оценку , полученную по методу, предложенному Дарбиным (метод 5 шаг а)).
4.5. Фиктивные переменные. Тест Чоу
Факторы (объясняющие переменные), применяемые в задаче регрессии до сих пор, принимали значения из некоторого непрерывного интервала. Иногда может понадобиться ввести в модель переменные, значения которых детерминированы и дискретны. Например, данные получены для трех разных районов, или на двух фабриках, или на разных машинах и т.п. Переменные такого типа обычно называют фиктивными или искусственными. Эти переменные позволяют отразить в модели эффекты сдвига во времени или в пространстве, воздействия качественных переменных. Пример фиктивной переменной - это переменная X0 при свободном члене 0 в уравнении регрессии (3.1), которая принята равной 1. Эту переменную необязательно вводить в модель, но ее использование обеспечивает некоторое удобство в обозначениях. Во многих других случаях введение фиктивных переменных диктуется необходимостью.
Пример. Допустим, мы хотим отразить в модели разное происхождение куриных окорочков (исходные данные
7 - таблица 4.5), часть из которых получены в Америке, а часть в Канаде, при построении регрессионной зависимости веса окорочков Y от возраста кур X. Для этого в модель включим фиктивную переменную Z: Z=0 для Америки, Z=1 для Канады:
Y=0 + 1X + Z.
Таблица 4.5
Данные для расчета модели с фиктивной переменной
X | 28 | 20 | 32 | 22 | 29 | 27 | 28 | 26 | 21 | 27 | 29 |
Y | 13,3 | 8,9 | 15,1 | 10,4 | 13,1 | 12,4 | 13,2 | 11,8 | 11,5 | 14,2 | 15,4 |
Z | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | 0 |
Если бы мы построили регрессию Y на X, то получили бы такое уравнение
Y=0,442+0,465X.
Воспользовавшись моделью с фиктивной переменной получим
Y=0,643+0,466X0,422Z
или для различных стран:
YK =0,221+0,466X для Канады и YA=0,643+0,466X для Америки.
Экспериментальные данные и три прямые, подобранные методом наименьших квадратов, приведены на рис. 4.3. Все три линии практически параллельны.
Дисперсионный анализ показывает значимость полученных зависимостей, причем уравнение (как с фиктивной переменной, так и без фиктивной переменной) объясняет до 80% вариации относительно среднего.
Вывод, который можно сделать в этом случае введение фиктивной переменной не дает весомого улучшения модели в смысле дополнительно объясненной вариации.
Ясно, что для какой-либо задачи существует не единственный способ выбора фиктивных переменных, а в большинстве случаев путей их представления много. Это обстоятельство оказывается выгодным, поскольку в некоторых случаях можно угодить в ловушку, когда существует линейная зависимость между введенными фиктивными переменными.
Чтобы избежать ловушки, необходимо выбрать одну из категорий в качестве эталонной и определять фиктивные переменные для остальных возможных категорий, причем выбор эталонной категории не влияет на сущность регрессии.
Рис. 4.3
Может потребоваться включение в модель более одной совокупности фиктивных переменных. Это особенно часто встречается при работе с перекрестными выборками. Поясним такую процедуру – множественных совокупностей фиктивных переменных – на примере8.
Пример. Предположим, что исследуется зависимость между весом новорожденного и семейным положением матери, а также рожала ли она раньше.
Введем фиктивную переменную M, которая принимает значения 1, если мать одинока, и 0 – в остальных случаях.
Введем также фиктивную переменную числа родов в прошлом D, равную 1 для матерей, которые рожали в прошлом, и 0 для матерей, которые ранее не рожали.
При этом двойном наборе фиктивных переменных имеется четыре возможных случая с соответствующими комбинациями значений фиктивных переменных:
1. Замужняя мать, первые роды M=0, D=0.
2. Одинокая мать, первые роды M=1, D=0.
3. Замужняя мать, не первые роды M=0, D=1.
4. Одинокая мать, не первые роды M=1, D=1.
Первый случай по смыслу является основной совместной эталонной категорией. Коэффициент при M будет представлять оценку разности веса новорожденных, если мать одинока (ожидаем отрицательный знак коэффициента). Коэффициент при D будет представлять оценку дополнительного веса при рождении, если ребенок не является первенцем. Ребенок для четвертой категории матерей будет подвержен обоим воздействиям.
Фиктивные переменные могут быть введены не только в правую часть регрессионного соотношения, но и зависимая переменная может быть представлена в такой форме. Это возможно в тех случаях, когда в качестве зависимой переменной мы рассматриваем ответы на вопросы, пользуется ли человек собственной машиной, имеет ли счет в банке и т.п., причем во всех случаях зависимая переменная принимает дискретные значения.
Фиктивные переменные могут быть использованы для учета взаимодействия между различными группами факторов.
Пример. Проиллюстрируем сказанное на примере с окорочками. Для построения двух прямых рассмотрим модель:
Y=0+1X+Z(1+2X)+u или Y=0+1X+1Z+2XZ+u.
Такой подход позволяет проверить различные варианты гипотез:
1. Гипотеза H0: 1=2=0 против альтернативы H1: что это не так. Если гипотеза H0 будет отвергнута, то мы придем к выводу, что модели не одинаковы, а если нет, то можно пользоваться одной моделью независимо от происхождения окороков.
2. Если гипотеза H0 в предыдущем пункте будет отвергнута, то можно проверить гипотезу H0: 2=0. Если H0 принимается, то мы заключаем, что имеющиеся два набора данных отличаются только уровнем, имея одинаковые углы наклона.
При необходимости могут быть выбраны и другие варианты проверок, если это разумно для задачи. Получим для указанной выше модели уравнение МНК:
Y=2,974+0,377X3,649Z+0,123(XZ),
причем R2=0,82.
Два отдельных уравнения для Z=1: Y=0,675+0,5X;
и для Z=0: Y=2,974+0,377X.
Как видно, уравнения несколько отличаются от тех линий, что приведены на рис. 4.3.
Для проверки гипотезы H0: 1=2=0 составим таблицу дисперсионного анализа (табл. 4.6). Значение F=3,399/0,983=3,458, что меньше F0,05(2; 7)=4,74, а, следовательно, гипотеза H0 принимается, то есть можно пользоваться одной моделью как для окороков из Америки, так и из Канады. Последнее подтверждается ранее полученными результатами.
Как показывает пример, использование взаимодействия с фиктивными переменными упрощает построение подходящих критериев и получение правильных статистик для проверки гипотез.
Таблица 4.6
Источник вариации | Сумма квадратов | Степени свободы | Средний квадрат |
X | 24,447 | 1 | 10,414 |
Z,XZ | 6,797 | 2 | 3,399 |
Остаток | 6,881 | 7 | 0,983 |
Всего | 38,125 | 10 | |