ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3637
Скачиваний: 4
112
Глава 16
Методы отбора переменных для линейной регрессии
Выбор метода отбора позволяет задать то
,
каким образом независимые переменные
включаются в анализ
.
Используя различные методы
,
Вы можете построить целый ряд
регрессионных моделей для одного и того же набора переменных
.
Принудительный ввод (Регрессионный анализ).
Процедура отбора переменных
,
при
которой все переменные блока вводятся за один шаг
.
Шаговый.
На каждом шаге в уравнение включается новая независимая переменная
с наименьшей вероятностью
F,
при условии
,
что эта вероятность достаточно мала
.
Переменные
,
уже введенные в регрессионное уравнение
,
исключаются из него
,
если их
вероятность
F
становится достаточно большой
.
Алгоритм останавливается
,
когда не
остается переменных
,
удовлетворяющих критерию включения или исключения
.
Блочное исключение.
Процедура отбора переменных
,
при которой все переменные
блока исключаются на одном шаге
.
Отбор исключением.
Процедура отбора переменных
,
при которой все переменные
вводятся в уравнение
,
а затем последовательно исключаются из него
.
Первым
кандидатом на исключения считается переменная
,
имеющая наименьшую частную
корреляцию с зависимой переменной
.
Если она удовлетворяет критерию исключения
,
ее удаляют
.
Следующим кандидатом на исключение становится переменная
,
имеющая наименьшую среди оставшихся переменных частную корреляцию с
зависимой переменной
.
Процедура останавливается
,
когда не остается переменных
,
удовлетворяющих критерию исключения
.
Последовательный выбор.
Шаговая процедура отбора переменных
,
при которой
переменные последовательно включаются в модель
.
Первым кандидатом на ввод
служит переменная с наибольшим модулем корреляции с зависимой переменной
.
Если эта переменная удовлетворяет критерию ввода
,
она включается в модель
.
Если
первая переменная включена в модель
,
то следующим кандидатом на включение среди
оставшихся вне модели переменных становится переменная
,
имеющая наибольшую
частную корреляцию
.
Процедура останавливается
,
когда не остается переменных
,
удовлетворяющих критерию ввода
.
Значения значимостей в выводе результатов основаны на подгонке единственной модели
.
Поэтому значения значимостей
,
как правило
,
некорректны при применении шагового
метода
(
Шаговый отбор
,
Включение или Исключение
).
Вне зависимости от выбранного метода отбора
,
каждая переменная должна
удовлетворять критерию допуска
(
толерантности
)
для того
,
чтобы быть введенной в
уравнение
.
По умолчанию
,
значение уровня толерантности
(
допуска
)
равно
0.0001.
Кроме того
,
переменная не будет введена в модель
,
если это повлечет за собой снижение
толерантности переменной
,
уже введенной в уравнение
,
до величины
,
меньшей
,
чем
значение критерия допуска
.
Все отобранные независимые переменные будут добавлены в одну регрессионную
модель
.
Однако
,
Вы можете задавать различные методы ввода переменных для разных
наборов переменных
.
Например
,
Вы можете включить один блок переменных в
регрессионную модель методом Шагового отбора
,
а другой блок
–
методом Включение
.
Чтобы добавить в регрессионную модель второй блок переменных
,
щелкните мышью
по кнопке
След
.
113
Линейная регрессия
Задание правила отбора наблюдений для линейной
регрессии
Рисунок 16-2
Диалоговое окно Линейная регрессия: Задание правила
В анализе используются наблюдения
,
отобранные с помощью правила отбора наблюдений
.
Например
,
если вы зададите переменную
,
выберете
равно
и введете
5
в качестве значения
,
то в анализе будут участвовать только те наблюдения
,
для которых значение заданной
переменной равно
5.
Допускается также текстовое значение
.
Графики процедуры Линейная регрессия
Рисунок 16-3
Диалоговое окно Линейная регрессия: Графики
Графики могут помочь при проверке предположений о нормальности
,
линейности и
равенстве дисперсий
.
Графики полезны также для выявления выбросов
,
необычных
наблюдений и влияющих наблюдений
.
Сохраненные в качестве новых переменных
предсказанные значения
,
остатки и другие диагностические величины становятся
доступными в Редакторе данных
.
Их можно использовать в сочетании с независимыми
переменными для построения графиков
.
Можно построить следующие графики
:
Диаграммы рассеяния.
Можно строить диаграммы для любой пары переменных из
следующего списка
:
зависимая переменная
,
стандартизованные предсказанные значения
,
стандартизованные остатки
,
удаленные остатки
,
скорректированные предсказанные
значения
,
стьюдентизированные остатки
,
стьюдентизированные удаленные остатки
.
Для
114
Глава 16
проверки линейности и равенства дисперсий строится график стандартизованных остатков
против стандартизованных предсказанных значений
.
Список исходных переменных.
В список входят зависимая переменная
(DEPENDNT)
и
следующие предсказываемые и переменные остатков
:
стандартизованные предсказанные
значения
(*ZPRED),
стандартизованные остатки
(*ZRESID),
удаленные остатки
(*DRESID),
скорректированные предсказанные значения
(*ADJPRED),
стьюдентизированные остатки
(*SREZID),
стьюдентизированные удаленные остатки
(*DRESID).
Выдать все частные графики.
Выводятся диаграммы рассеяния остатков для всех пар
переменных
,
состоящих из зависимой переменной и одной независимой переменной
.
Остатки получаются при раздельном построении регрессионных моделей для каждой
переменной из пары по всем остальным независимым переменным
.
Чтобы был построен
частный график
,
в регрессионное уравнение должны быть включены
,
по крайней мере
,
две
независимые переменные
.
Графики стандартизованных остатков.
Вы можете построить гистограммы
стандартизованных остатков и нормальные вероятностные графики
,
сравнивающие
распределение стандартизованных остатков с нормальным распределением
.
Если задан вывод каких
-
либо графиков
,
выдаются итожащие статистики для
стандартизованных предсказанных значений и стандартизованных остатков
(
*ZPRED
и
*ZRESID
).
115
Линейная регрессия
Линейная регрессия: Сохранение новых переменных
Рисунок 16-4
Диалоговое окно Линейная регрессия: Сохранить
Предсказанные значения
,
остатки и другие статистики
,
полезные для диагностики
,
можно
сохранить
.
Выбор каждого из перечисленных ниже пунктов добавляет к активному файлу
данных одну или несколько переменных
.
Предсказанные значения.
Значения
,
которые регрессионная модель предсказывает для
каждого наблюдения
.
Нестандартизованные.
Значение зависимой переменной
,
предсказываемое в
соответствии с моделью
.
Стандартизованные.
Преобразование каждого предсказанного значения в
стандартизованную форму
.
То есть
,
из каждого предсказанного значения вычитают
среднее предсказанное значение
,
и полученную разность делят на стандартное
отклонение предсказанного значения
.
Среднее стандартизованных предсказанных
значений равно
0,
а стандартное отклонение
1.
116
Глава 16
Скорректированные.
Предсказываемое значение для наблюдения
,
при условии
,
что это
наблюдение не используется при вычислении коэффициентов регрессии
.
Стд. ошибка средних.
Стандартные ошибки предсказанных значений
.
Оценка
стандартного отклонения среднего значения зависимой переменной для наблюдений
с одинаковыми значениями независимых переменных
.
Расстояния.
Меры
,
выявляющие наблюдения с необычными комбинациями значений
независимых переменных и наблюдения
,
которые могут оказать большое влияние на
регрессионную модель
.
Махаланобиса.
Мера того
,
насколько значения наблюдений для независимых
переменных отклоняются от среднего по всем наблюдениям
.
Большое расстояние
Махаланобиса означает
,
что наблюдение содержит экстремальные значения в одной или
более независимых переменных
.
Кука.
Для каждого наблюдения показывает насколько изменятся остатки всех
наблюдений
,
если это наблюдение не использовать при вычислении коэффициентов
регрессии
.
Большое расстояние Кука указывает на то
,
что исключение данного
наблюдения из вычислений регрессии существенно меняет коэффициенты
.
Разбалансировка.
Измеряют влияние точки на согласие регрессионной модели
.
Центрированные балансировки изменяются от
0 (
не влияет
)
до
(N-1)/N.
Интервалы предсказания.
Верхние и нижние границы интервалов предсказания для
среднего и отдельного значения
.
Среднее.
Нижняя и верхняя границы
(
две переменные
)
интервала предсказания для
среднего предсказываемого отклика
.
Для отдельных значений.
Нижняя и верхняя границы
(
две переменные
)
для интервала
предсказания зависимой переменной для отдельного наблюдения
.
Доверительный интервал.
Введите значение от
1
до
99,99,
чтобы задать доверительный
уровень для двух интервалов предсказания
.
Перед вводом этого значения необходимо
выбрать Среднее или Отдельное значение
.
Типичные значения доверительного уровня
- 90, 95
и
99.
Остатки.
Фактическое значение зависимой переменной минус предсказанное
регрессионным уравнением
.
Нестандартизованные.
Разность между наблюдаемым и предсказанным моделью
значением
.
Стандартизованные.
Остаток
,
деленный на оценку его стандартного отклонения
.
Стандартизованные остатки
,
известные еще как пирсоновские
,
имеют среднее
0
и
стандартное отклонение
1.
Стьюдентизированные.
Остаток
,
деленный на его оцененное стандартное отклонение
,
меняющееся от наблюдения к наблюдению в зависимости от расстояния значений
независимых переменных для данного наблюдения от средних независимых
переменных
.