ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3622

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

107

Линейные модели

Стили.

Имеются различные стили вывода

,

которые можно выбрать в выпадающем списке

Стиль

.

Диаграмма.

Это диаграмма

,

в которой сначала выводится свободный член

,

а затем

эффекты

,

отсортированные сверху вниз по убыванию важности предикторов

.

Внутри эффектов

,

содержащих факторы

,

коэффициенты сортируются в порядке

возрастания значений данных

.

Соединяющие линии на диаграмме раскрашены в

зависимости от знака коэффициента

(

см

.

ключ диаграммы

)

и взвешены в зависимости

от значимости коэффициента

,

с большей толщиной линии

,

соответствующей более

значимым коэффициентам

(

меньшим

p

-

значениям

).

При наведении указателя мыши

на соединительную линию появляется всплывающая подсказка

,

выводящая значение

коэффициента

,

p

-

значение для него

,

а также значение важности эффекта

,

с которым

связан этот параметр

.

Это задано по умолчанию

.

Таблица.

В этой таблице выводятся значения

,

результаты тестов на значимость и

доверительные интервалы для индивидуальных коэффициентов модели

.

После

свободного члена эффекты отсортированы сверху вниз по убыванию важности
предикторов

.

Внутри эффектов

,

содержащих факторы

,

коэффициенты сортируются в

порядке возрастания значений данных

.

Обратите внимание на то

,

что по умолчанию

таблица сворачивается

,

чтобы вывести только коэффициент

,

значимость и важность

для каждого параметра модели

.

Чтобы увидеть стандартную ошибку

,

t

-

статистику и

доверительный интервал

,

щелкните по ячейке

Коэффициент

в таблице

.

При наведении

указателя мыши на имя параметра модели в таблице появляется всплывающая
подсказка

,

выводящая имя параметра

,

эффект

,

с которым связан этот параметр

,

и

(

для категориальных предикторов

)

метки значений

,

связанных с данным параметром

модели

.

Это

,

в частности

,

позволяет увидеть новые категории

,

созданные

,

когда

автоматическая подготовка данных привела к объединению сходных категорий
категориального предиктора

.

Важность предикторов.

Имеется слайдер важности предикторов

,

который управляет тем

,

какие предикторы выводятся

.

Это не изменяет модели

,

а просто позволяет сосредоточить

внимание на наиболее важных предикторах

.

По умолчанию выводятся

10

верхних

эффектов

.

Значимость.

Имеется слайдер значимости

,

предоставляющий дополнительные

возможности управлять тем

,

какие коэффициенты выводить

,

кроме тех

,

которые

выводятся на основе значимости предикторов

.

Коэффициенты со значениями значимости

,

превосходящими значение слайдера

,

скрыты

.

Это не изменяет модели

,

а просто позволяет

сосредоточить внимание на наиболее важных коэффициентах

.

По умолчанию это значение

равно

1,00,

так что никакие коэффициенты не отфильтровываются на основе значимости

.


background image

108

Глава 15

Оцененные средние

Рисунок 15-16

Вид Оцененные средние

Это диаграммы

,

выводимые для значимых предикторов

.

На диаграмме вдоль вертикальной

оси выводится оцененное по модели значение целевой переменной для каждого значения
предиктора на горизонтальной оси при сохранении значений всех остальных предикторов
неизменными

.

Это дает полезную визуализацию того

,

какое влияние коэффициент каждого

предиктора оказывает на целевую переменную

.

Примечание

:

если нет значимых предикторов

,

оцененные средние не выводятся

.


background image

109

Линейные модели

Сводка по построению модели

Рисунок 15-17

Вид Сводка по построению модели, прямой шаговый алгоритм

Эта панель предоставляет некоторые детали процесса построения модели

,

когда в группе

параметров Подбор модели сделан выбор алгоритма отбора

,

отличный от

Нет

.

Прямой шаговый.

Если алгоритмом отбора является прямой шаговый

,

то в таблице

выводятся последние

10

шагов шагового алгоритма

.

На каждом шаге показываются

значение критерия отбора и эффекты в модели

.

Это дает понимание того

,

какой вклад в

модель дает каждый шаг

.

В каждом столбце можно сортировать строки

,

чтобы было легче

видеть

,

какие эффекты содержатся в модели на каждом шаге

.

Наилучшие подмножества.

Если алгоритмом отбора является

наилучшие подмножества

”,

то таблица выводит

10

лучших моделей

.

Для каждой модели показываются значение

критерия отбора и эффекты в модели

.

Это позволяет проверить стабильность лучших

моделей

.

Если для них наблюдается тенденция иметь много схожих эффектов с небольшими

различиями

,

то наилучшей модели можно вполне доверять

.

Если для них наблюдается

тенденция иметь сильно различающиеся эффекты

,

то некоторые из этих эффектов могут

быть слишком схожи между собой

,

и их следует объединить

(

или один удалить

).

В каждом

столбце можно сортировать строки

,

чтобы было легче видеть

,

какие эффекты содержатся в

модели на каждом шаге

.


background image

Глава

16

Линейная регрессия

Линейная регрессия оценивает коэффициенты линейного уравнения

,

содержащего одну

или несколько независимых переменных

,

позволяющие наилучшим образом предсказать

значение зависимой переменной

.

Например

,

Вы можете попытаться предсказать объем

годовых продаж для сотрудника отдела продаж

(

зависимая переменная

)

по таким

независимым переменным

,

как возраст

,

образование и стаж работы

.

Пример.

Связано ли число матчей

,

выигранных за сезон баскетбольной командой

,

со

средним количеством очков

,

набранных ей в каждом матче

?

Диаграмма рассеяния

показывает

,

что эти переменные линейно связаны

.

Количество выигранных матчей и

среднее число очков

,

набранное соперником

,

также линейно связаны между собой

.

Эти

переменные имеют отрицательную связь

.

При росте количества выигранных матчей

,

среднее число очков

,

набранных соперником

,

уменьшается

.

С помощью линейной

регрессии Вы можете смоделировать зависимость этих переменных

.

Хорошую модель

можно использовать для предсказания числа матчей

,

которые выиграют команды

.

Статистики.

Для каждой переменной

:

число наблюдений без пропущенных значений

,

среднее значение и стандартное отклонение

.

Для каждой модели

:

коэффициенты

регрессии

,

матрица корреляций

,

частичные и частные корреляции

,

множественный

R

,

R

2

,

скорректированный

R

2

,

изменение

R

2

,

стандартная ошибка оценки

,

таблица

дисперсионного анализа

,

предсказанные значения и остатки

.

Также выдаются

: 95%-

е

доверительные интервалы для каждого коэффициента регрессии

,

матрица ковариаций

,

коэффициент разбухания дисперсии

(variance inflation factor),

статистика допуска

(

толерантность

),

критерий Дурбина

-

Уотсона

,

меры расстояния

(

Махаланобиса

,

Кука

и значения разбалансировки

), DfBeta, DfFit,

интервалы предсказания

,

поточечная

диагностика

.

Графики

:

диаграммы рассеяния

,

частные графики

,

гистограммы и

нормальные вероятностные графики

.

Данные.

Зависимая и независимые переменные должны быть количественными

.

Категориальные переменные

,

такие как религия

,

основная область исследования

,

регион

проживания

,

должны быть перекодированы в бинарные

(

фиктивные

)

переменные или в

другие типы переменных контрастов

.

Предположения.

Для каждого значения независимой переменной распределение

зависимой переменной должно быть нормальным

.

Дисперсия распределения зависимой

переменной должна быть постоянной для каждого значения независимой переменной

.

Взаимосвязи между зависимой и каждой из независимых переменных должны быть
линейными

,

и все наблюдения должны быть независимыми

.

Чтобы выполнить линейный регрессионный анализ

E

Выберите в меню

:

Анализ > Регрессия > Линейная...

© Copyright IBM Corporation 1989, 2011.

110


background image

111

Линейная регрессия

Рисунок 16-1

Диалоговое окно Линейная регрессия

E

В диалоговом окне Линейная регрессия выберите числовую зависимую переменную

.

E

Выберите одну или несколько числовых независимых переменных

.

Дополнительно Вы можете

:

Объединять независимые переменные в блоки и задавать разные методы отбора

переменных для разных подмножеств переменных

.

Выбирать переменную отбора наблюдений для того

,

чтобы ограничить анализ

подмножеством наблюдений

,

имеющих конкретные значения этой переменной

.

Выбирать переменную для идентификации наблюдений

(

точек

)

на графиках

.

Выбрать числовую переменную весов для применения взвешенного метода наименьших

квадратов

.

ВМНК.

Позволяет получить взвешенную модель методом наименьших квадратов

.

Вес точки

данных равен обратной величине ее дисперсии

.

Это означает

,

что чем больше дисперсия

наблюдения

,

тем слабее оно влияет на результат

.

Если значение взвешивающей переменной

равно нулю

,

отрицательно

,

или пропущено

,

наблюдение исключается из анализа

.