ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3638

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

97

Линейные модели

Примечание

:

Выбор наилучших подмножеств требует большего объема вычислений

,

чем

прямой шаговый отбор

.

Когда выполняется выбор наилучших подмножеств в сочетании с

бустингом

,

бэггингом или очень большими наборами данных

,

то для построения модели

потребуется значительно больше времени

,

чем при построении стандартной модели с

использованием прямого пошагового отбора

.

Ансамбли

Рисунок 15-5

Параметры ансамблей

Данные параметры определяют поведение ансамбля

,

которое имеет место

,

когда на вкладке

Цели запрашивается бэггинг

,

бустинг или очень большие наборы данных

.

Параметры

,

которые не применяются к выбранной цели

,

игнорируются

.

Бэггинг и очень большие наборы данных.

Это правило

,

которое при скоринге ансамбля

используется

,

чтобы объединить предсказанные значения для базовых моделей с целью

вычисления значения для ансамбля

.

Принятое по умолчанию правило объединения для непрерывных целевых полей.

Предсказанные значения для ансамбля в случае непрерывных целевых полей могут
быть вычислены с использованием среднего значения или медианы предсказанных
значений для базовых моделей

.

Обратите внимание на то

,

что если цель состоит в повышении точности модели

,

выбор

правила объединения игнорируется

.

При бустинге всегда используется взвешенное

решение большинством голосов для скоринга категориальных целевых полей и взвешенная
медиана для скоринга непрерывных целевых полей

.

Бустинг и бэггинг.

Задайте число базовых моделей для построения

,

когда целью является

повышение точности или стабильности

;

для бэггинга это число бутстреп

-

выборок

.

Оно

должно быть положительным целым

.


background image

98

Глава 15

Дополнительные параметры

Рисунок 15-6

Дополнительные параметры

Воспроизвести результаты.

Задание стартового числа генератора псевдослучайных чисел

позволяет воспроизвести результаты

.

Генератор псевдослучайных чисел используется для

выбора записей

,

попадающих в множество предотвращения сверхобучения

.

Задайте целое

число или щелкните по

Генерировать

,

чтобы сгенерировать псевдослучайное целое число в

диапазоне между

1

и

2147483647

включительно

.

Значение по умолчанию равно

54752075.

Параметры модели

Рисунок 15-7

Вкладка Параметры модели


background image

99

Линейные модели

Сохранить предсказанные значения в наборе данных.

Именем переменной по

умолчанию является

ПредсказанноеЗначение

.

Экспортировать модель.

Модель записывается во внешний файл

.zip

.

Этот файл модели

можно использовать для применения информации о модели к другим файлам данных с
целью скоринга

.

Задайте уникальное допустимое имя файла

.

Если файл с таким именем

уже существует

,

то он перезаписывается

.

Сводка для модели

Рисунок 15-8

Вид Сводка для модели

Вид Сводка для модели

-

это мгновенная визуальная сводка по модели и ее подгонке

.

Таблица.

Данная таблица отображает некоторые установки высокого уровня для модели

,

включая

:

имя целевого поля

,

заданное на вкладке

Поля

,

выполнена ли автоматическая подготовка данных

,

которая задается на странице

установок

Основные параметры

,

метод подбора модели и критерий отбора

,

которые задаются на странице установок

Подбор модели

.

Выводится также значение критерия отбора для окончательной модели

и представляется в форме

меньше значит лучше

”.

Диаграмма.

Данная диаграмма показывает точность окончательной модели

,

представленную в форме

больше значит лучше

”.

Это значение есть

100 ×

скорректированный

R

2

для окончательной модели

.


background image

100

Глава 15

Автоматическая подготовка данных

Рисунок 15-9

Вид Автоматическая подготовка данных

Этот вид выводит информацию о том

,

какие поля были исключены и как преобразованные

поля были получены на этапе автоматической подготовки данных

(ADP).

Для каждого

поля

,

которое было преобразовано или исключено

,

в таблице перечисляется имя поля

,

его

роль в анализе и действие

,

совершенное на этапе

ADP.

Поля сортируются в алфавитном

порядке имен полей по возрастанию

.

Возможные действия

,

выолняемые для каждого

поля

,

включают

:

Вычислить продолжительность: месяцы

вычисляет время в месяцах

,

прошедшее от

значений некоторого поля

,

содержащего даты

,

до текущей системной даты

.

Вычислить продолжительность: месяцы

вычисляет время в часах

,

прошедшее от значений

некоторого поля

,

содержащего время

,

до текущего значения системного времени

.

Сменить тип измерений с непрерывного на порядковый

преобразует непрерывные поля

с менее чем

5

различных значений в порядковые поля

.

Сменить тип измерений с порядкового на непрерывный

преобразует порядковые поля с

более чем

10

различных значений в непрерывные поля

.

Урезать выбросы

заменяет значения непрерывных предикторов

,

которые лежат вне

границ отсечения

(

определяемых тремя стандартными отклонениями от среднего

значения

),

значением границы отсечения

.

Заменить пропущенные значения

заменяет пропущенные значения номинальных полей

модой

,

порядковых полей медианой

,

а непрерывных полей средним значением

.


background image

101

Линейные модели

Объединить категории для максимизации взаимосвязи с целеым полем

выявляет

похожие

категории предикторов на основе взаимосвязи между входными и целевой

переменными

.

Категории

,

которые не различаются значимо

(

т

.

е

.

имеющие

p

-

значение

больше

0,05),

объединяются

.

Исключить предиктор-константу / после обработки пропущенных значений / после

объединения категорий

удаляет предикторы

,

которые имеют единственное значение

,

вероятно

,

в результате выполнения дополнительных действий автоматической

подготовки данных

.

Важность предикторов

Рисунок 15-10

Вид Важность предикторов

Обычно при моделировании сосредотачивают внимание на наиболее важных предикторах и
исключают или игнорируют наименее важные

.

Это помогает сделать диаграмма важности

предикторов

,

показывая относительную важность каждого предиктора при оценке модели

.

Поскольку значения важности являются относительными

,

сумма этих значений для всех

отображаемых предикторов равна

1,0.

Важность переменных не связана с точностью

модели

.

Она лишь связана с важностью каждого предиктора для предсказания

,

а не с

точностью этого предсказания

.