ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3622
Скачиваний: 4
107
Линейные модели
Стили.
Имеются различные стили вывода
,
которые можно выбрать в выпадающем списке
Стиль
.
Диаграмма.
Это диаграмма
,
в которой сначала выводится свободный член
,
а затем
эффекты
,
отсортированные сверху вниз по убыванию важности предикторов
.
Внутри эффектов
,
содержащих факторы
,
коэффициенты сортируются в порядке
возрастания значений данных
.
Соединяющие линии на диаграмме раскрашены в
зависимости от знака коэффициента
(
см
.
ключ диаграммы
)
и взвешены в зависимости
от значимости коэффициента
,
с большей толщиной линии
,
соответствующей более
значимым коэффициентам
(
меньшим
p
-
значениям
).
При наведении указателя мыши
на соединительную линию появляется всплывающая подсказка
,
выводящая значение
коэффициента
,
p
-
значение для него
,
а также значение важности эффекта
,
с которым
связан этот параметр
.
Это задано по умолчанию
.
Таблица.
В этой таблице выводятся значения
,
результаты тестов на значимость и
доверительные интервалы для индивидуальных коэффициентов модели
.
После
свободного члена эффекты отсортированы сверху вниз по убыванию важности
предикторов
.
Внутри эффектов
,
содержащих факторы
,
коэффициенты сортируются в
порядке возрастания значений данных
.
Обратите внимание на то
,
что по умолчанию
таблица сворачивается
,
чтобы вывести только коэффициент
,
значимость и важность
для каждого параметра модели
.
Чтобы увидеть стандартную ошибку
,
t
-
статистику и
доверительный интервал
,
щелкните по ячейке
Коэффициент
в таблице
.
При наведении
указателя мыши на имя параметра модели в таблице появляется всплывающая
подсказка
,
выводящая имя параметра
,
эффект
,
с которым связан этот параметр
,
и
(
для категориальных предикторов
)
метки значений
,
связанных с данным параметром
модели
.
Это
,
в частности
,
позволяет увидеть новые категории
,
созданные
,
когда
автоматическая подготовка данных привела к объединению сходных категорий
категориального предиктора
.
Важность предикторов.
Имеется слайдер важности предикторов
,
который управляет тем
,
какие предикторы выводятся
.
Это не изменяет модели
,
а просто позволяет сосредоточить
внимание на наиболее важных предикторах
.
По умолчанию выводятся
10
верхних
эффектов
.
Значимость.
Имеется слайдер значимости
,
предоставляющий дополнительные
возможности управлять тем
,
какие коэффициенты выводить
,
кроме тех
,
которые
выводятся на основе значимости предикторов
.
Коэффициенты со значениями значимости
,
превосходящими значение слайдера
,
скрыты
.
Это не изменяет модели
,
а просто позволяет
сосредоточить внимание на наиболее важных коэффициентах
.
По умолчанию это значение
равно
1,00,
так что никакие коэффициенты не отфильтровываются на основе значимости
.
108
Глава 15
Оцененные средние
Рисунок 15-16
Вид Оцененные средние
Это диаграммы
,
выводимые для значимых предикторов
.
На диаграмме вдоль вертикальной
оси выводится оцененное по модели значение целевой переменной для каждого значения
предиктора на горизонтальной оси при сохранении значений всех остальных предикторов
неизменными
.
Это дает полезную визуализацию того
,
какое влияние коэффициент каждого
предиктора оказывает на целевую переменную
.
Примечание
:
если нет значимых предикторов
,
оцененные средние не выводятся
.
109
Линейные модели
Сводка по построению модели
Рисунок 15-17
Вид Сводка по построению модели, прямой шаговый алгоритм
Эта панель предоставляет некоторые детали процесса построения модели
,
когда в группе
параметров Подбор модели сделан выбор алгоритма отбора
,
отличный от
Нет
.
Прямой шаговый.
Если алгоритмом отбора является прямой шаговый
,
то в таблице
выводятся последние
10
шагов шагового алгоритма
.
На каждом шаге показываются
значение критерия отбора и эффекты в модели
.
Это дает понимание того
,
какой вклад в
модель дает каждый шаг
.
В каждом столбце можно сортировать строки
,
чтобы было легче
видеть
,
какие эффекты содержатся в модели на каждом шаге
.
Наилучшие подмножества.
Если алгоритмом отбора является
“
наилучшие подмножества
”,
то таблица выводит
10
лучших моделей
.
Для каждой модели показываются значение
критерия отбора и эффекты в модели
.
Это позволяет проверить стабильность лучших
моделей
.
Если для них наблюдается тенденция иметь много схожих эффектов с небольшими
различиями
,
то наилучшей модели можно вполне доверять
.
Если для них наблюдается
тенденция иметь сильно различающиеся эффекты
,
то некоторые из этих эффектов могут
быть слишком схожи между собой
,
и их следует объединить
(
или один удалить
).
В каждом
столбце можно сортировать строки
,
чтобы было легче видеть
,
какие эффекты содержатся в
модели на каждом шаге
.
Глава
16
Линейная регрессия
Линейная регрессия оценивает коэффициенты линейного уравнения
,
содержащего одну
или несколько независимых переменных
,
позволяющие наилучшим образом предсказать
значение зависимой переменной
.
Например
,
Вы можете попытаться предсказать объем
годовых продаж для сотрудника отдела продаж
(
зависимая переменная
)
по таким
независимым переменным
,
как возраст
,
образование и стаж работы
.
Пример.
Связано ли число матчей
,
выигранных за сезон баскетбольной командой
,
со
средним количеством очков
,
набранных ей в каждом матче
?
Диаграмма рассеяния
показывает
,
что эти переменные линейно связаны
.
Количество выигранных матчей и
среднее число очков
,
набранное соперником
,
также линейно связаны между собой
.
Эти
переменные имеют отрицательную связь
.
При росте количества выигранных матчей
,
среднее число очков
,
набранных соперником
,
уменьшается
.
С помощью линейной
регрессии Вы можете смоделировать зависимость этих переменных
.
Хорошую модель
можно использовать для предсказания числа матчей
,
которые выиграют команды
.
Статистики.
Для каждой переменной
:
число наблюдений без пропущенных значений
,
среднее значение и стандартное отклонение
.
Для каждой модели
:
коэффициенты
регрессии
,
матрица корреляций
,
частичные и частные корреляции
,
множественный
R
,
R
2
,
скорректированный
R
2
,
изменение
R
2
,
стандартная ошибка оценки
,
таблица
дисперсионного анализа
,
предсказанные значения и остатки
.
Также выдаются
: 95%-
е
доверительные интервалы для каждого коэффициента регрессии
,
матрица ковариаций
,
коэффициент разбухания дисперсии
(variance inflation factor),
статистика допуска
(
толерантность
),
критерий Дурбина
-
Уотсона
,
меры расстояния
(
Махаланобиса
,
Кука
и значения разбалансировки
), DfBeta, DfFit,
интервалы предсказания
,
поточечная
диагностика
.
Графики
:
диаграммы рассеяния
,
частные графики
,
гистограммы и
нормальные вероятностные графики
.
Данные.
Зависимая и независимые переменные должны быть количественными
.
Категориальные переменные
,
такие как религия
,
основная область исследования
,
регион
проживания
,
должны быть перекодированы в бинарные
(
фиктивные
)
переменные или в
другие типы переменных контрастов
.
Предположения.
Для каждого значения независимой переменной распределение
зависимой переменной должно быть нормальным
.
Дисперсия распределения зависимой
переменной должна быть постоянной для каждого значения независимой переменной
.
Взаимосвязи между зависимой и каждой из независимых переменных должны быть
линейными
,
и все наблюдения должны быть независимыми
.
Чтобы выполнить линейный регрессионный анализ
E
Выберите в меню
:
Анализ > Регрессия > Линейная...
© Copyright IBM Corporation 1989, 2011.
110
111
Линейная регрессия
Рисунок 16-1
Диалоговое окно Линейная регрессия
E
В диалоговом окне Линейная регрессия выберите числовую зависимую переменную
.
E
Выберите одну или несколько числовых независимых переменных
.
Дополнительно Вы можете
:
Объединять независимые переменные в блоки и задавать разные методы отбора
переменных для разных подмножеств переменных
.
Выбирать переменную отбора наблюдений для того
,
чтобы ограничить анализ
подмножеством наблюдений
,
имеющих конкретные значения этой переменной
.
Выбирать переменную для идентификации наблюдений
(
точек
)
на графиках
.
Выбрать числовую переменную весов для применения взвешенного метода наименьших
квадратов
.
ВМНК.
Позволяет получить взвешенную модель методом наименьших квадратов
.
Вес точки
данных равен обратной величине ее дисперсии
.
Это означает
,
что чем больше дисперсия
наблюдения
,
тем слабее оно влияет на результат
.
Если значение взвешивающей переменной
равно нулю
,
отрицательно
,
или пропущено
,
наблюдение исключается из анализа
.