ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3648

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

92

Глава 15

и порядковые

)

поля используются в модели в качестве факторов

,

а непрерывные поля

используются как ковариаты

.

Примечание

:

если категориальное поле содержит более

1000

категорий

,

то процедура не

выполняется

,

и модель не строится

.

Как запустить процедуру построения линейной модели

Для этой процедуры требуется модуль

Statistics Base.

Выберите в меню

:

Анализ > Регрессия > Автоматизированные линейные модели...

E

Удостоверьтесь

,

что есть

,

по крайней мере

,

одна целевая и одна входная переменная

.

E

Щелкните по

Параметры конструкции

,

чтобы задать необязательные параметры сборки

и модели

.

E

Щелкните по

Параметры модели

,

чтобы сохранить оценки в активном наборе данных и

экспортировать модель во внешний файл

.

E

Щелкните по

Запуск

,

чтобы запустить процедуру и создать объекты модели

.

В случае

,

когда тип измерений для одной или нескольких переменных

(

полей

)

в наборе

данных неизвестен

,

выводится предупреждающее сообщение о типе измерений

.

Так как

тип измерений влияет на вычисление результатов для этой процедуры

,

все переменные

должны иметь заданный тип измерений

.

Рисунок 15-2

Предупреждение о типе измерений

Сканировать данные.

Считывает данные в активном наборе данных и назначает тип

измерений по умолчанию любым полям с неизвестным типом измерений

.

Это может

занять некоторое время

,

если набор данных большой

.

Назначить вручную.

Открывает диалоговое окно

,

в котором перечисляются все поля

с неизвестным типом измерений

.

Можно использовать это диалоговое окно

,

чтобы

назначить тип измерений таким полям

.

Тип измерений можно также назначит на

вкладке Переменные Редактора данных

.


background image

93

Линейные модели

Поскольку тип измерений важен для этой процедуры

,

нельзя получить доступ к

диалоговому окну

,

позволяющему запустить эту процедуру

,

пока для всех полей не будет

задан тип измерений

.

Цели

Какова Ваша главная цель?

Создать стандартную модель.

Данный метод строит единичную модель для

предсказания целевой переменной

,

используя предикторы

.

Вообще говоря

,

стандартные

модели легче поддаются интерпретации и могут требовать меньше времени при
скоринге

,

чем построенные с применением бустинга

,

бэггинга или ансамблей больших

наборов данных

.

Повысить точность модели (бустинг).

Данный метод строит модель ансамбля

,

используя бустинг

,

который генерирует последовательность моделей для получения

более точных предсказаний

.

Ансамбли могут занять больше времени для их построения

и скоринга

,

чем стандартная модель

.

Бустинг генерирует последовательность

компонентных моделей

”,

каждая из которых

строится по целому набору данных

.

Прежде чем строить каждую последовательную

компонентную модель

,

записи взвешиваются на основе остатков для предшествующей

компонентной модели

.

Наблюдениям с большими остатками придаются относительно

большие веса в анализе

,

с тем чтобы следующая компонентная модель была

сконцентрирована на том

,

чтобы хорошо предсказывать такие записи

.

Вместе такие

компонентные модели образуют модель ансамбля

.

Модель ансамбля выполняет скоринг

новых записей

,

пользуясь правилом объединения

;

доступные правила зависят от типа

измерений целевой переменной

.

Повысить стабильность модели (бэггинг).

Данный метод строит модель ансамбля

,

используя бэггинг

(

бутстреп

-

агрегирование

),

который генерирует множественные

модели для получения более надежных предсказаний

.

Ансамбли могут занять больше

времени для их построения и скоринга

,

чем стандартная модель

.

Бутстреп

-

агрегирование

(

бэггинг

)

формирует реплики обучающего набора данных

путем выбора с возвращением из исходного набора данных

.

В результате создаются

бутстреп

-

выборки исходного набора данных равного объема

.

Затем по каждой реплике

формируется

компонентная модель

”.

Вместе такие компонентные модели образуют

модель ансамбля

.

Модель ансамбля выполняет скоринг новых записей

,

пользуясь

правилом объединения

;

доступные правила зависят от типа измерений целевой

переменной

.

Создать модель для очень больших наборов данных (требуется IBM® SPSS®

Statistics Server).

Данный метод строит модель ансамбля путем расщепления набора

данных на отдельные блоки данных

.

Выберите этот вариант

,

если ваш набор данных

слишком велик для построения моделей перечисленных выше

,

или для инкрементного

построения модели

.

Данный вариант может потребовать меньше времени для

построения

,

но больше времени для скоринга

,

чем стандартная модель

.

Этот вариант

требует соединения с

SPSS Statistics Server.


background image

94

Глава 15

Основные параметры

Рисунок 15-3

Основные параметры

Автоматически подготовить данные.

Этот параметр позволяет процедуре выполнить

внутренние преобразования целевой переменой и предикторов

,

чтобы максимизировать

прогностическую силу модели

.

Все преобразования сохраняются вместе с моделью и

применяются к новым данным при скоринге

.

Исходные версии преобразованных полей

исключаются из модели

.

По умолчанию выполняются автоматические преобразования

данных

,

описанные ниже

.

Обработка дат и времени.

Каждый предиктор

,

являющейся переменной дат

,

преобразуется в новый непрерывный предиктор

,

содержащий время

,

прошедшее

,

начиная с опорной даты

(1970-01-01).

Каждый предиктор

,

являющийся переменной

времени

,

преобразуется в новый непрерывный предиктор

,

содержащий время

,

прошедшее

,

начиная с опорного момента времени

(00:00:00).

Корректировка шкалы измерений.

Непрерывные предикторы

,

содержащие менее

5

различных значений

,

преобразуются в порядковые предикторы

.

Порядковые

предикторы

,

содержащие более

10

различных значений

,

преобразуются в непрерывные

предикторы

.

Обработка выбросов.

Значения непрерывных предикторов

,

которые лежат вне границ

отсечения

(

определяемых тремя стандартными отклонениями от среднего значения

),

заменяются значением границы отсечения

.

Обработка пропущенных значений.

Пропущенные значения номинальных

предикторов заменяются модой обучающего разбиения

.

Пропущенные значения

порядковых предикторов заменяются медианой обучающего разбиения

.

Пропущенные


background image

95

Линейные модели

значения непрерывных предикторов заменяются средним значением обучающего
разбиения

.

Контролируемое объединение.

Эта операция делает модель более

экономной

путем уменьшения числа полей

,

обрабатываемых в связи с целевым полем

.

Идентифицируются подобные категории

,

основываясь на взаимосвязи между входным

и целевым полями

.

Категории

,

которые не различаются значимо

(

т

.

е

.

имеющие

p-

значение больше

0,1),

объединяются

.

Если все категории объединяются в одну

,

то исходная и полученная версии поля исключаются из модели

,

поскольку они не

представляют ценности как предиктор

.

Доверительный уровень.

Это доверительный уровень

,

используемый при вычислении

интервальных оценок коэффициентов модели

,

представленных на панели

Коэффициенты

.

Задайте значение

,

большее

0

и меньшее

100.

Значение по умолчанию равно

95.

Подбор модели

Рисунок 15-4

Параметры подбора модели

Метод подбора модели.

Выберите один из методов подбора модели

(

подробности ниже

)

или

Включить все предикторы

,

когда все имеющиеся предикторы просто вводятся в модель

как члены главных эффектов

.

По умолчанию используется

Прямой шаговый

.


background image

96

Глава 15

Прямой шаговый отбор.

Этот метод начинает работу с модели без эффектов

,

добавляя и

удаляя эффекты по одному на каждом шаге до тех пор

,

пока ни один эффект нельзя будет

добавить

,

руководствуясь критериями шагового отбора

.

Критерии для включения/исключения.

Это статистика

,

используемая для определения

того

,

следует ли эффект добавить в модель или исключить из нее

.

Информационный

критерий (AICC)

основывается на правдоподобии обучающего множества для

данной модели и скорректирован с целью штрафовать излишне сложные модели

.

F-статистики

основывается на статистическом критерии снижения модельной ошибки

.

Скорректированный R-квадрат

основывается на точности подгонки для обучающего

множества и скорректирован с целью штрафовать излишне сложные модели

.

Критерий

предотвращения сверхобучения (СКО)

основывается на точности подгонки

(

среднем

квадрате ошибки или СКО

)

для множества предотвращения сверхобучения

.

Множество

предотвращения сверхобучения представляет собой случайную подвыборку

,

содержащую приблизительно

30%

наблюдений из исходного набора данных

,

которая

не используется при обучении модели

.

Если выбран любой критерий

,

отличный от

F-статистики

,

то на каждом шаге в модель

добавляется эффект

,

соответствующий максимальному положительному приращению

значения критерия

.

Все эффекты в модели

,

соответствующие уменьшению значения

критерия

,

удаляются

.

Если в качестве критерия выбран

F-статистики

,

то на каждом шаге в модель добавляется

эффект

,

дающий наименьшее

p

-

значение

,

при условии

,

что оно меньше порогового

значения

,

заданного в

Включать эффекты с p-значениями, меньшими чем

.

Значение по

умолчанию равно

0,05.

Все эффекты в модели с

p

-

значением

,

превосходящим пороговое

значение

,

заданное в

Исключать эффекты с p-значениями, большими чем

,

удаляются

.

Значение по умолчанию равно

0.10.

Задать максимальное число эффектов в окончательной модели.

По умолчанию все

имеющиеся эффекты могут быть включены в модель

.

Как альтернатива

,

если шаговый

алгоритм

,

заканчивая работу на некотором шаге

,

имеет заданное максимальное число

эффектов в модели

,

то он останавливает работу

,

сохраняя текущий набор эффектов

.

Задать максимальное число шагов.

Шаговый алгоритм останавливается после

определенного числа шагов

.

По умолчанию это утроенное число имеющихся эффектов

.

Как альтернатива

,

задайте положительное целое для максимума числа шагов

.

Выбор наилучших подмножеств.

Проверяются

все возможные

модели или

,

по крайней

мере

,

большая совокупность возможных моделей

,

чем при прямом пошаговом отборе

,

для

выбора наилучших в соответствии с критерием наилучших подмножеств

.

Информационный

критерий (AICC)

основывается на правдоподобии обучающего множества для данной модели

и скорректирован с целью штрафовать излишне сложные модели

.

Скорректированный

R-квадрат

основывается на точности подгонки для обучающего множества и скорректирован

с целью штрафовать излишне сложные модели

.

Критерий предотвращения сверхобучения

(СКО)

основывается на точности подгонки

(

среднем квадрате ошибки или СКО

)

для

множества предотвращения сверхобучения

.

Множество предотвращения сверхобучения

представляет собой случайную подвыборку

,

содержащую приблизительно

30%

наблюдений

из исходного набора данных

,

которая не используется при обучении модели

.

В качестве наилучшей модели выбирается модель с наибольшим значением критерия

.