ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3648
Скачиваний: 4
92
Глава 15
и порядковые
)
поля используются в модели в качестве факторов
,
а непрерывные поля
используются как ковариаты
.
Примечание
:
если категориальное поле содержит более
1000
категорий
,
то процедура не
выполняется
,
и модель не строится
.
Как запустить процедуру построения линейной модели
Для этой процедуры требуется модуль
Statistics Base.
Выберите в меню
:
Анализ > Регрессия > Автоматизированные линейные модели...
E
Удостоверьтесь
,
что есть
,
по крайней мере
,
одна целевая и одна входная переменная
.
E
Щелкните по
Параметры конструкции
,
чтобы задать необязательные параметры сборки
и модели
.
E
Щелкните по
Параметры модели
,
чтобы сохранить оценки в активном наборе данных и
экспортировать модель во внешний файл
.
E
Щелкните по
Запуск
,
чтобы запустить процедуру и создать объекты модели
.
В случае
,
когда тип измерений для одной или нескольких переменных
(
полей
)
в наборе
данных неизвестен
,
выводится предупреждающее сообщение о типе измерений
.
Так как
тип измерений влияет на вычисление результатов для этой процедуры
,
все переменные
должны иметь заданный тип измерений
.
Рисунок 15-2
Предупреждение о типе измерений
Сканировать данные.
Считывает данные в активном наборе данных и назначает тип
измерений по умолчанию любым полям с неизвестным типом измерений
.
Это может
занять некоторое время
,
если набор данных большой
.
Назначить вручную.
Открывает диалоговое окно
,
в котором перечисляются все поля
с неизвестным типом измерений
.
Можно использовать это диалоговое окно
,
чтобы
назначить тип измерений таким полям
.
Тип измерений можно также назначит на
вкладке Переменные Редактора данных
.
93
Линейные модели
Поскольку тип измерений важен для этой процедуры
,
нельзя получить доступ к
диалоговому окну
,
позволяющему запустить эту процедуру
,
пока для всех полей не будет
задан тип измерений
.
Цели
Какова Ваша главная цель?
Создать стандартную модель.
Данный метод строит единичную модель для
предсказания целевой переменной
,
используя предикторы
.
Вообще говоря
,
стандартные
модели легче поддаются интерпретации и могут требовать меньше времени при
скоринге
,
чем построенные с применением бустинга
,
бэггинга или ансамблей больших
наборов данных
.
Повысить точность модели (бустинг).
Данный метод строит модель ансамбля
,
используя бустинг
,
который генерирует последовательность моделей для получения
более точных предсказаний
.
Ансамбли могут занять больше времени для их построения
и скоринга
,
чем стандартная модель
.
Бустинг генерирует последовательность
“
компонентных моделей
”,
каждая из которых
строится по целому набору данных
.
Прежде чем строить каждую последовательную
компонентную модель
,
записи взвешиваются на основе остатков для предшествующей
компонентной модели
.
Наблюдениям с большими остатками придаются относительно
большие веса в анализе
,
с тем чтобы следующая компонентная модель была
сконцентрирована на том
,
чтобы хорошо предсказывать такие записи
.
Вместе такие
компонентные модели образуют модель ансамбля
.
Модель ансамбля выполняет скоринг
новых записей
,
пользуясь правилом объединения
;
доступные правила зависят от типа
измерений целевой переменной
.
Повысить стабильность модели (бэггинг).
Данный метод строит модель ансамбля
,
используя бэггинг
(
бутстреп
-
агрегирование
),
который генерирует множественные
модели для получения более надежных предсказаний
.
Ансамбли могут занять больше
времени для их построения и скоринга
,
чем стандартная модель
.
Бутстреп
-
агрегирование
(
бэггинг
)
формирует реплики обучающего набора данных
путем выбора с возвращением из исходного набора данных
.
В результате создаются
бутстреп
-
выборки исходного набора данных равного объема
.
Затем по каждой реплике
формируется
“
компонентная модель
”.
Вместе такие компонентные модели образуют
модель ансамбля
.
Модель ансамбля выполняет скоринг новых записей
,
пользуясь
правилом объединения
;
доступные правила зависят от типа измерений целевой
переменной
.
Создать модель для очень больших наборов данных (требуется IBM® SPSS®
Statistics Server).
Данный метод строит модель ансамбля путем расщепления набора
данных на отдельные блоки данных
.
Выберите этот вариант
,
если ваш набор данных
слишком велик для построения моделей перечисленных выше
,
или для инкрементного
построения модели
.
Данный вариант может потребовать меньше времени для
построения
,
но больше времени для скоринга
,
чем стандартная модель
.
Этот вариант
требует соединения с
SPSS Statistics Server.
94
Глава 15
Основные параметры
Рисунок 15-3
Основные параметры
Автоматически подготовить данные.
Этот параметр позволяет процедуре выполнить
внутренние преобразования целевой переменой и предикторов
,
чтобы максимизировать
прогностическую силу модели
.
Все преобразования сохраняются вместе с моделью и
применяются к новым данным при скоринге
.
Исходные версии преобразованных полей
исключаются из модели
.
По умолчанию выполняются автоматические преобразования
данных
,
описанные ниже
.
Обработка дат и времени.
Каждый предиктор
,
являющейся переменной дат
,
преобразуется в новый непрерывный предиктор
,
содержащий время
,
прошедшее
,
начиная с опорной даты
(1970-01-01).
Каждый предиктор
,
являющийся переменной
времени
,
преобразуется в новый непрерывный предиктор
,
содержащий время
,
прошедшее
,
начиная с опорного момента времени
(00:00:00).
Корректировка шкалы измерений.
Непрерывные предикторы
,
содержащие менее
5
различных значений
,
преобразуются в порядковые предикторы
.
Порядковые
предикторы
,
содержащие более
10
различных значений
,
преобразуются в непрерывные
предикторы
.
Обработка выбросов.
Значения непрерывных предикторов
,
которые лежат вне границ
отсечения
(
определяемых тремя стандартными отклонениями от среднего значения
),
заменяются значением границы отсечения
.
Обработка пропущенных значений.
Пропущенные значения номинальных
предикторов заменяются модой обучающего разбиения
.
Пропущенные значения
порядковых предикторов заменяются медианой обучающего разбиения
.
Пропущенные
95
Линейные модели
значения непрерывных предикторов заменяются средним значением обучающего
разбиения
.
Контролируемое объединение.
Эта операция делает модель более
“
экономной
”
путем уменьшения числа полей
,
обрабатываемых в связи с целевым полем
.
Идентифицируются подобные категории
,
основываясь на взаимосвязи между входным
и целевым полями
.
Категории
,
которые не различаются значимо
(
т
.
е
.
имеющие
p-
значение больше
0,1),
объединяются
.
Если все категории объединяются в одну
,
то исходная и полученная версии поля исключаются из модели
,
поскольку они не
представляют ценности как предиктор
.
Доверительный уровень.
Это доверительный уровень
,
используемый при вычислении
интервальных оценок коэффициентов модели
,
представленных на панели
.
Задайте значение
,
большее
0
и меньшее
100.
Значение по умолчанию равно
95.
Подбор модели
Рисунок 15-4
Параметры подбора модели
Метод подбора модели.
Выберите один из методов подбора модели
(
подробности ниже
)
или
Включить все предикторы
,
когда все имеющиеся предикторы просто вводятся в модель
как члены главных эффектов
.
По умолчанию используется
Прямой шаговый
.
96
Глава 15
Прямой шаговый отбор.
Этот метод начинает работу с модели без эффектов
,
добавляя и
удаляя эффекты по одному на каждом шаге до тех пор
,
пока ни один эффект нельзя будет
добавить
,
руководствуясь критериями шагового отбора
.
Критерии для включения/исключения.
Это статистика
,
используемая для определения
того
,
следует ли эффект добавить в модель или исключить из нее
.
Информационный
критерий (AICC)
основывается на правдоподобии обучающего множества для
данной модели и скорректирован с целью штрафовать излишне сложные модели
.
F-статистики
основывается на статистическом критерии снижения модельной ошибки
.
Скорректированный R-квадрат
основывается на точности подгонки для обучающего
множества и скорректирован с целью штрафовать излишне сложные модели
.
Критерий
предотвращения сверхобучения (СКО)
основывается на точности подгонки
(
среднем
квадрате ошибки или СКО
)
для множества предотвращения сверхобучения
.
Множество
предотвращения сверхобучения представляет собой случайную подвыборку
,
содержащую приблизительно
30%
наблюдений из исходного набора данных
,
которая
не используется при обучении модели
.
Если выбран любой критерий
,
отличный от
F-статистики
,
то на каждом шаге в модель
добавляется эффект
,
соответствующий максимальному положительному приращению
значения критерия
.
Все эффекты в модели
,
соответствующие уменьшению значения
критерия
,
удаляются
.
Если в качестве критерия выбран
F-статистики
,
то на каждом шаге в модель добавляется
эффект
,
дающий наименьшее
p
-
значение
,
при условии
,
что оно меньше порогового
значения
,
заданного в
Включать эффекты с p-значениями, меньшими чем
.
Значение по
умолчанию равно
0,05.
Все эффекты в модели с
p
-
значением
,
превосходящим пороговое
значение
,
заданное в
Исключать эффекты с p-значениями, большими чем
,
удаляются
.
Значение по умолчанию равно
0.10.
Задать максимальное число эффектов в окончательной модели.
По умолчанию все
имеющиеся эффекты могут быть включены в модель
.
Как альтернатива
,
если шаговый
алгоритм
,
заканчивая работу на некотором шаге
,
имеет заданное максимальное число
эффектов в модели
,
то он останавливает работу
,
сохраняя текущий набор эффектов
.
Задать максимальное число шагов.
Шаговый алгоритм останавливается после
определенного числа шагов
.
По умолчанию это утроенное число имеющихся эффектов
.
Как альтернатива
,
задайте положительное целое для максимума числа шагов
.
Выбор наилучших подмножеств.
Проверяются
“
все возможные
”
модели или
,
по крайней
мере
,
большая совокупность возможных моделей
,
чем при прямом пошаговом отборе
,
для
выбора наилучших в соответствии с критерием наилучших подмножеств
.
Информационный
критерий (AICC)
основывается на правдоподобии обучающего множества для данной модели
и скорректирован с целью штрафовать излишне сложные модели
.
Скорректированный
R-квадрат
основывается на точности подгонки для обучающего множества и скорректирован
с целью штрафовать излишне сложные модели
.
Критерий предотвращения сверхобучения
(СКО)
основывается на точности подгонки
(
среднем квадрате ошибки или СКО
)
для
множества предотвращения сверхобучения
.
Множество предотвращения сверхобучения
представляет собой случайную подвыборку
,
содержащую приблизительно
30%
наблюдений
из исходного набора данных
,
которая не используется при обучении модели
.
В качестве наилучшей модели выбирается модель с наибольшим значением критерия
.