Файл: IBM_SPSS_Statistics_Base.pdf

Скачать файл (5,12Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3648

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Глава 15

и порядковые

)

поля используются в модели в качестве факторов

а непрерывные поля

используются как ковариаты

Примечание

если категориальное поле содержит более

1000

категорий

то процедура не

выполняется

и модель не строится

Как запустить процедуру построения линейной модели

Для этой процедуры требуется модуль

Statistics Base.

Выберите в меню

Анализ > Регрессия > Автоматизированные линейные модели...

Удостоверьтесь

что есть

по крайней мере

одна целевая и одна входная переменная

Щелкните по

Параметры конструкции

чтобы задать необязательные параметры сборки

и модели

Щелкните по

Параметры модели

чтобы сохранить оценки в активном наборе данных и

экспортировать модель во внешний файл

Щелкните по

Запуск

чтобы запустить процедуру и создать объекты модели

В случае

когда тип измерений для одной или нескольких переменных

(

полей

)

в наборе

данных неизвестен

выводится предупреждающее сообщение о типе измерений

Так как

тип измерений влияет на вычисление результатов для этой процедуры

все переменные

должны иметь заданный тип измерений

Рисунок 15-2

Предупреждение о типе измерений



Сканировать данные.

Считывает данные в активном наборе данных и назначает тип

измерений по умолчанию любым полям с неизвестным типом измерений

Это может

занять некоторое время

если набор данных большой



Назначить вручную.

Открывает диалоговое окно

в котором перечисляются все поля

с неизвестным типом измерений

Можно использовать это диалоговое окно

чтобы

назначить тип измерений таким полям

Тип измерений можно также назначит на

вкладке Переменные Редактора данных

Линейные модели

Поскольку тип измерений важен для этой процедуры

нельзя получить доступ к

диалоговому окну

позволяющему запустить эту процедуру

пока для всех полей не будет

задан тип измерений

Цели

Какова Ваша главная цель?



Создать стандартную модель.

Данный метод строит единичную модель для

предсказания целевой переменной

используя предикторы

Вообще говоря

стандартные

модели легче поддаются интерпретации и могут требовать меньше времени при
скоринге

чем построенные с применением бустинга

бэггинга или ансамблей больших

наборов данных



Повысить точность модели (бустинг).

Данный метод строит модель ансамбля

используя бустинг

который генерирует последовательность моделей для получения

более точных предсказаний

Ансамбли могут занять больше времени для их построения

и скоринга

чем стандартная модель

Бустинг генерирует последовательность

“

компонентных моделей

”,

каждая из которых

строится по целому набору данных

Прежде чем строить каждую последовательную

компонентную модель

записи взвешиваются на основе остатков для предшествующей

компонентной модели

Наблюдениям с большими остатками придаются относительно

большие веса в анализе

с тем чтобы следующая компонентная модель была

сконцентрирована на том

чтобы хорошо предсказывать такие записи

Вместе такие

компонентные модели образуют модель ансамбля

Модель ансамбля выполняет скоринг

новых записей

пользуясь правилом объединения

;

доступные правила зависят от типа

измерений целевой переменной



Повысить стабильность модели (бэггинг).

Данный метод строит модель ансамбля

используя бэггинг

(

бутстреп

агрегирование

который генерирует множественные

модели для получения более надежных предсказаний

Ансамбли могут занять больше

времени для их построения и скоринга

чем стандартная модель

Бутстреп

агрегирование

(

бэггинг

)

формирует реплики обучающего набора данных

путем выбора с возвращением из исходного набора данных

В результате создаются

бутстреп

выборки исходного набора данных равного объема

Затем по каждой реплике

формируется

“

компонентная модель

”.

Вместе такие компонентные модели образуют

модель ансамбля

Модель ансамбля выполняет скоринг новых записей

пользуясь

правилом объединения

;

доступные правила зависят от типа измерений целевой

переменной



Создать модель для очень больших наборов данных (требуется IBM® SPSS®

Statistics Server).

Данный метод строит модель ансамбля путем расщепления набора

данных на отдельные блоки данных

Выберите этот вариант

если ваш набор данных

слишком велик для построения моделей перечисленных выше

или для инкрементного

построения модели

Данный вариант может потребовать меньше времени для

построения

но больше времени для скоринга

чем стандартная модель

Этот вариант

требует соединения с

SPSS Statistics Server.

Глава 15

Основные параметры

Рисунок 15-3

Основные параметры

Автоматически подготовить данные.

Этот параметр позволяет процедуре выполнить

внутренние преобразования целевой переменой и предикторов

чтобы максимизировать

прогностическую силу модели

Все преобразования сохраняются вместе с моделью и

применяются к новым данным при скоринге

Исходные версии преобразованных полей

исключаются из модели

По умолчанию выполняются автоматические преобразования

данных

описанные ниже



Обработка дат и времени.

Каждый предиктор

являющейся переменной дат

преобразуется в новый непрерывный предиктор

содержащий время

прошедшее

начиная с опорной даты

(1970-01-01).

Каждый предиктор

являющийся переменной

времени

преобразуется в новый непрерывный предиктор

содержащий время

прошедшее

начиная с опорного момента времени

(00:00:00).



Корректировка шкалы измерений.

Непрерывные предикторы

содержащие менее

различных значений

преобразуются в порядковые предикторы

Порядковые

предикторы

содержащие более

различных значений

преобразуются в непрерывные

предикторы



Обработка выбросов.

Значения непрерывных предикторов

которые лежат вне границ

отсечения

(

определяемых тремя стандартными отклонениями от среднего значения

заменяются значением границы отсечения



Обработка пропущенных значений.

Пропущенные значения номинальных

предикторов заменяются модой обучающего разбиения

Пропущенные значения

порядковых предикторов заменяются медианой обучающего разбиения

Пропущенные

Линейные модели

значения непрерывных предикторов заменяются средним значением обучающего
разбиения



Контролируемое объединение.

Эта операция делает модель более

“

экономной

”

путем уменьшения числа полей

обрабатываемых в связи с целевым полем

Идентифицируются подобные категории

основываясь на взаимосвязи между входным

и целевым полями

Категории

которые не различаются значимо

(

имеющие

значение больше

0,1),

объединяются

Если все категории объединяются в одну

то исходная и полученная версии поля исключаются из модели

поскольку они не

представляют ценности как предиктор

Доверительный уровень.

Это доверительный уровень

используемый при вычислении

интервальных оценок коэффициентов модели

представленных на панели

Коэффициенты

Задайте значение

большее

и меньшее

100.

Значение по умолчанию равно

95.

Подбор модели

Рисунок 15-4

Параметры подбора модели

Метод подбора модели.

Выберите один из методов подбора модели

(

подробности ниже

)

или

Включить все предикторы

когда все имеющиеся предикторы просто вводятся в модель

как члены главных эффектов

По умолчанию используется

Прямой шаговый

Глава 15

Прямой шаговый отбор.

Этот метод начинает работу с модели без эффектов

добавляя и

удаляя эффекты по одному на каждом шаге до тех пор

пока ни один эффект нельзя будет

добавить

руководствуясь критериями шагового отбора



Критерии для включения/исключения.

Это статистика

используемая для определения

того

следует ли эффект добавить в модель или исключить из нее

Информационный

критерий (AICC)

основывается на правдоподобии обучающего множества для

данной модели и скорректирован с целью штрафовать излишне сложные модели

F-статистики

основывается на статистическом критерии снижения модельной ошибки

Скорректированный R-квадрат

основывается на точности подгонки для обучающего

множества и скорректирован с целью штрафовать излишне сложные модели

Критерий

предотвращения сверхобучения (СКО)

основывается на точности подгонки

(

среднем

квадрате ошибки или СКО

)

для множества предотвращения сверхобучения

Множество

предотвращения сверхобучения представляет собой случайную подвыборку

содержащую приблизительно

30%

наблюдений из исходного набора данных

которая

не используется при обучении модели

Если выбран любой критерий

отличный от

F-статистики

то на каждом шаге в модель

добавляется эффект

соответствующий максимальному положительному приращению

значения критерия

Все эффекты в модели

соответствующие уменьшению значения

критерия

удаляются

Если в качестве критерия выбран

F-статистики

то на каждом шаге в модель добавляется

эффект

дающий наименьшее

значение

при условии

что оно меньше порогового

значения

заданного в

Включать эффекты с p-значениями, меньшими чем

Значение по

умолчанию равно

0,05.

Все эффекты в модели с

значением

превосходящим пороговое

значение

заданное в

Исключать эффекты с p-значениями, большими чем

удаляются

Значение по умолчанию равно

0.10.



Задать максимальное число эффектов в окончательной модели.

По умолчанию все

имеющиеся эффекты могут быть включены в модель

Как альтернатива

если шаговый

алгоритм

заканчивая работу на некотором шаге

имеет заданное максимальное число

эффектов в модели

то он останавливает работу

сохраняя текущий набор эффектов



Задать максимальное число шагов.

Шаговый алгоритм останавливается после

определенного числа шагов

По умолчанию это утроенное число имеющихся эффектов

Как альтернатива

задайте положительное целое для максимума числа шагов

Выбор наилучших подмножеств.

Проверяются

“

все возможные

”

модели или

по крайней

мере

большая совокупность возможных моделей

чем при прямом пошаговом отборе

для

выбора наилучших в соответствии с критерием наилучших подмножеств

Информационный

критерий (AICC)

основывается на правдоподобии обучающего множества для данной модели

и скорректирован с целью штрафовать излишне сложные модели

Скорректированный

R-квадрат

основывается на точности подгонки для обучающего множества и скорректирован

с целью штрафовать излишне сложные модели

Критерий предотвращения сверхобучения

(СКО)

основывается на точности подгонки

(

среднем квадрате ошибки или СКО

)

для

множества предотвращения сверхобучения

Множество предотвращения сверхобучения

представляет собой случайную подвыборку

содержащую приблизительно

30%

наблюдений

из исходного набора данных

которая не используется при обучении модели

В качестве наилучшей модели выбирается модель с наибольшим значением критерия

Смотрите также файлы

Підручник Соціологія.doc

РГР ВСТВ стац.doc

MS_Word_2008.doc

Навчальна практика з маркетингу.doc

1.doc

Файл: IBM_SPSS_Statistics_Base.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно