ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3637

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

112

Глава 16

Методы отбора переменных для линейной регрессии

Выбор метода отбора позволяет задать то

,

каким образом независимые переменные

включаются в анализ

.

Используя различные методы

,

Вы можете построить целый ряд

регрессионных моделей для одного и того же набора переменных

.

Принудительный ввод (Регрессионный анализ).

Процедура отбора переменных

,

при

которой все переменные блока вводятся за один шаг

.

Шаговый.

На каждом шаге в уравнение включается новая независимая переменная

с наименьшей вероятностью

F,

при условии

,

что эта вероятность достаточно мала

.

Переменные

,

уже введенные в регрессионное уравнение

,

исключаются из него

,

если их

вероятность

F

становится достаточно большой

.

Алгоритм останавливается

,

когда не

остается переменных

,

удовлетворяющих критерию включения или исключения

.

Блочное исключение.

Процедура отбора переменных

,

при которой все переменные

блока исключаются на одном шаге

.

Отбор исключением.

Процедура отбора переменных

,

при которой все переменные

вводятся в уравнение

,

а затем последовательно исключаются из него

.

Первым

кандидатом на исключения считается переменная

,

имеющая наименьшую частную

корреляцию с зависимой переменной

.

Если она удовлетворяет критерию исключения

,

ее удаляют

.

Следующим кандидатом на исключение становится переменная

,

имеющая наименьшую среди оставшихся переменных частную корреляцию с
зависимой переменной

.

Процедура останавливается

,

когда не остается переменных

,

удовлетворяющих критерию исключения

.

Последовательный выбор.

Шаговая процедура отбора переменных

,

при которой

переменные последовательно включаются в модель

.

Первым кандидатом на ввод

служит переменная с наибольшим модулем корреляции с зависимой переменной

.

Если эта переменная удовлетворяет критерию ввода

,

она включается в модель

.

Если

первая переменная включена в модель

,

то следующим кандидатом на включение среди

оставшихся вне модели переменных становится переменная

,

имеющая наибольшую

частную корреляцию

.

Процедура останавливается

,

когда не остается переменных

,

удовлетворяющих критерию ввода

.

Значения значимостей в выводе результатов основаны на подгонке единственной модели

.

Поэтому значения значимостей

,

как правило

,

некорректны при применении шагового

метода

(

Шаговый отбор

,

Включение или Исключение

).

Вне зависимости от выбранного метода отбора

,

каждая переменная должна

удовлетворять критерию допуска

(

толерантности

)

для того

,

чтобы быть введенной в

уравнение

.

По умолчанию

,

значение уровня толерантности

(

допуска

)

равно

0.0001.

Кроме того

,

переменная не будет введена в модель

,

если это повлечет за собой снижение

толерантности переменной

,

уже введенной в уравнение

,

до величины

,

меньшей

,

чем

значение критерия допуска

.

Все отобранные независимые переменные будут добавлены в одну регрессионную

модель

.

Однако

,

Вы можете задавать различные методы ввода переменных для разных

наборов переменных

.

Например

,

Вы можете включить один блок переменных в

регрессионную модель методом Шагового отбора

,

а другой блок

методом Включение

.

Чтобы добавить в регрессионную модель второй блок переменных

,

щелкните мышью

по кнопке

След

.


background image

113

Линейная регрессия

Задание правила отбора наблюдений для линейной

регрессии

Рисунок 16-2

Диалоговое окно Линейная регрессия: Задание правила

В анализе используются наблюдения

,

отобранные с помощью правила отбора наблюдений

.

Например

,

если вы зададите переменную

,

выберете

равно

и введете

5

в качестве значения

,

то в анализе будут участвовать только те наблюдения

,

для которых значение заданной

переменной равно

5.

Допускается также текстовое значение

.

Графики процедуры Линейная регрессия

Рисунок 16-3

Диалоговое окно Линейная регрессия: Графики

Графики могут помочь при проверке предположений о нормальности

,

линейности и

равенстве дисперсий

.

Графики полезны также для выявления выбросов

,

необычных

наблюдений и влияющих наблюдений

.

Сохраненные в качестве новых переменных

предсказанные значения

,

остатки и другие диагностические величины становятся

доступными в Редакторе данных

.

Их можно использовать в сочетании с независимыми

переменными для построения графиков

.

Можно построить следующие графики

:

Диаграммы рассеяния.

Можно строить диаграммы для любой пары переменных из

следующего списка

:

зависимая переменная

,

стандартизованные предсказанные значения

,

стандартизованные остатки

,

удаленные остатки

,

скорректированные предсказанные

значения

,

стьюдентизированные остатки

,

стьюдентизированные удаленные остатки

.

Для


background image

114

Глава 16

проверки линейности и равенства дисперсий строится график стандартизованных остатков
против стандартизованных предсказанных значений

.

Список исходных переменных.

В список входят зависимая переменная

(DEPENDNT)

и

следующие предсказываемые и переменные остатков

:

стандартизованные предсказанные

значения

(*ZPRED),

стандартизованные остатки

(*ZRESID),

удаленные остатки

(*DRESID),

скорректированные предсказанные значения

(*ADJPRED),

стьюдентизированные остатки

(*SREZID),

стьюдентизированные удаленные остатки

(*DRESID).

Выдать все частные графики.

Выводятся диаграммы рассеяния остатков для всех пар

переменных

,

состоящих из зависимой переменной и одной независимой переменной

.

Остатки получаются при раздельном построении регрессионных моделей для каждой
переменной из пары по всем остальным независимым переменным

.

Чтобы был построен

частный график

,

в регрессионное уравнение должны быть включены

,

по крайней мере

,

две

независимые переменные

.

Графики стандартизованных остатков.

Вы можете построить гистограммы

стандартизованных остатков и нормальные вероятностные графики

,

сравнивающие

распределение стандартизованных остатков с нормальным распределением

.

Если задан вывод каких

-

либо графиков

,

выдаются итожащие статистики для

стандартизованных предсказанных значений и стандартизованных остатков

(

*ZPRED

и

*ZRESID

).


background image

115

Линейная регрессия

Линейная регрессия: Сохранение новых переменных

Рисунок 16-4

Диалоговое окно Линейная регрессия: Сохранить

Предсказанные значения

,

остатки и другие статистики

,

полезные для диагностики

,

можно

сохранить

.

Выбор каждого из перечисленных ниже пунктов добавляет к активному файлу

данных одну или несколько переменных

.

Предсказанные значения.

Значения

,

которые регрессионная модель предсказывает для

каждого наблюдения

.

Нестандартизованные.

Значение зависимой переменной

,

предсказываемое в

соответствии с моделью

.

Стандартизованные.

Преобразование каждого предсказанного значения в

стандартизованную форму

.

То есть

,

из каждого предсказанного значения вычитают

среднее предсказанное значение

,

и полученную разность делят на стандартное

отклонение предсказанного значения

.

Среднее стандартизованных предсказанных

значений равно

0,

а стандартное отклонение

1.


background image

116

Глава 16

Скорректированные.

Предсказываемое значение для наблюдения

,

при условии

,

что это

наблюдение не используется при вычислении коэффициентов регрессии

.

Стд. ошибка средних.

Стандартные ошибки предсказанных значений

.

Оценка

стандартного отклонения среднего значения зависимой переменной для наблюдений
с одинаковыми значениями независимых переменных

.

Расстояния.

Меры

,

выявляющие наблюдения с необычными комбинациями значений

независимых переменных и наблюдения

,

которые могут оказать большое влияние на

регрессионную модель

.

Махаланобиса.

Мера того

,

насколько значения наблюдений для независимых

переменных отклоняются от среднего по всем наблюдениям

.

Большое расстояние

Махаланобиса означает

,

что наблюдение содержит экстремальные значения в одной или

более независимых переменных

.

Кука.

Для каждого наблюдения показывает насколько изменятся остатки всех

наблюдений

,

если это наблюдение не использовать при вычислении коэффициентов

регрессии

.

Большое расстояние Кука указывает на то

,

что исключение данного

наблюдения из вычислений регрессии существенно меняет коэффициенты

.

Разбалансировка.

Измеряют влияние точки на согласие регрессионной модели

.

Центрированные балансировки изменяются от

0 (

не влияет

)

до

(N-1)/N.

Интервалы предсказания.

Верхние и нижние границы интервалов предсказания для

среднего и отдельного значения

.

Среднее.

Нижняя и верхняя границы

(

две переменные

)

интервала предсказания для

среднего предсказываемого отклика

.

Для отдельных значений.

Нижняя и верхняя границы

(

две переменные

)

для интервала

предсказания зависимой переменной для отдельного наблюдения

.

Доверительный интервал.

Введите значение от

1

до

99,99,

чтобы задать доверительный

уровень для двух интервалов предсказания

.

Перед вводом этого значения необходимо

выбрать Среднее или Отдельное значение

.

Типичные значения доверительного уровня

- 90, 95

и

99.

Остатки.

Фактическое значение зависимой переменной минус предсказанное

регрессионным уравнением

.

Нестандартизованные.

Разность между наблюдаемым и предсказанным моделью

значением

.

Стандартизованные.

Остаток

,

деленный на оценку его стандартного отклонения

.

Стандартизованные остатки

,

известные еще как пирсоновские

,

имеют среднее

0

и

стандартное отклонение

1.

Стьюдентизированные.

Остаток

,

деленный на его оцененное стандартное отклонение

,

меняющееся от наблюдения к наблюдению в зависимости от расстояния значений
независимых переменных для данного наблюдения от средних независимых
переменных

.