ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3638
Скачиваний: 4
97
Линейные модели
Примечание
:
Выбор наилучших подмножеств требует большего объема вычислений
,
чем
прямой шаговый отбор
.
Когда выполняется выбор наилучших подмножеств в сочетании с
бустингом
,
бэггингом или очень большими наборами данных
,
то для построения модели
потребуется значительно больше времени
,
чем при построении стандартной модели с
использованием прямого пошагового отбора
.
Ансамбли
Рисунок 15-5
Параметры ансамблей
Данные параметры определяют поведение ансамбля
,
которое имеет место
,
когда на вкладке
Цели запрашивается бэггинг
,
бустинг или очень большие наборы данных
.
Параметры
,
которые не применяются к выбранной цели
,
игнорируются
.
Бэггинг и очень большие наборы данных.
Это правило
,
которое при скоринге ансамбля
используется
,
чтобы объединить предсказанные значения для базовых моделей с целью
вычисления значения для ансамбля
.
Принятое по умолчанию правило объединения для непрерывных целевых полей.
Предсказанные значения для ансамбля в случае непрерывных целевых полей могут
быть вычислены с использованием среднего значения или медианы предсказанных
значений для базовых моделей
.
Обратите внимание на то
,
что если цель состоит в повышении точности модели
,
выбор
правила объединения игнорируется
.
При бустинге всегда используется взвешенное
решение большинством голосов для скоринга категориальных целевых полей и взвешенная
медиана для скоринга непрерывных целевых полей
.
Бустинг и бэггинг.
Задайте число базовых моделей для построения
,
когда целью является
повышение точности или стабильности
;
для бэггинга это число бутстреп
-
выборок
.
Оно
должно быть положительным целым
.
98
Глава 15
Дополнительные параметры
Рисунок 15-6
Дополнительные параметры
Воспроизвести результаты.
Задание стартового числа генератора псевдослучайных чисел
позволяет воспроизвести результаты
.
Генератор псевдослучайных чисел используется для
выбора записей
,
попадающих в множество предотвращения сверхобучения
.
Задайте целое
число или щелкните по
Генерировать
,
чтобы сгенерировать псевдослучайное целое число в
диапазоне между
1
и
2147483647
включительно
.
Значение по умолчанию равно
54752075.
Параметры модели
Рисунок 15-7
Вкладка Параметры модели
99
Линейные модели
Сохранить предсказанные значения в наборе данных.
Именем переменной по
умолчанию является
ПредсказанноеЗначение
.
Экспортировать модель.
Модель записывается во внешний файл
.zip
.
Этот файл модели
можно использовать для применения информации о модели к другим файлам данных с
целью скоринга
.
Задайте уникальное допустимое имя файла
.
Если файл с таким именем
уже существует
,
то он перезаписывается
.
Сводка для модели
Рисунок 15-8
Вид Сводка для модели
Вид Сводка для модели
-
это мгновенная визуальная сводка по модели и ее подгонке
.
Таблица.
Данная таблица отображает некоторые установки высокого уровня для модели
,
включая
:
имя целевого поля
,
заданное на вкладке
,
выполнена ли автоматическая подготовка данных
,
которая задается на странице
установок
,
метод подбора модели и критерий отбора
,
которые задаются на странице установок
.
Выводится также значение критерия отбора для окончательной модели
и представляется в форме
“
меньше значит лучше
”.
Диаграмма.
Данная диаграмма показывает точность окончательной модели
,
представленную в форме
“
больше значит лучше
”.
Это значение есть
100 ×
скорректированный
R
2
для окончательной модели
.
100
Глава 15
Автоматическая подготовка данных
Рисунок 15-9
Вид Автоматическая подготовка данных
Этот вид выводит информацию о том
,
какие поля были исключены и как преобразованные
поля были получены на этапе автоматической подготовки данных
(ADP).
Для каждого
поля
,
которое было преобразовано или исключено
,
в таблице перечисляется имя поля
,
его
роль в анализе и действие
,
совершенное на этапе
ADP.
Поля сортируются в алфавитном
порядке имен полей по возрастанию
.
Возможные действия
,
выолняемые для каждого
поля
,
включают
:
Вычислить продолжительность: месяцы
вычисляет время в месяцах
,
прошедшее от
значений некоторого поля
,
содержащего даты
,
до текущей системной даты
.
Вычислить продолжительность: месяцы
вычисляет время в часах
,
прошедшее от значений
некоторого поля
,
содержащего время
,
до текущего значения системного времени
.
Сменить тип измерений с непрерывного на порядковый
преобразует непрерывные поля
с менее чем
5
различных значений в порядковые поля
.
Сменить тип измерений с порядкового на непрерывный
преобразует порядковые поля с
более чем
10
различных значений в непрерывные поля
.
Урезать выбросы
заменяет значения непрерывных предикторов
,
которые лежат вне
границ отсечения
(
определяемых тремя стандартными отклонениями от среднего
значения
),
значением границы отсечения
.
Заменить пропущенные значения
заменяет пропущенные значения номинальных полей
модой
,
порядковых полей медианой
,
а непрерывных полей средним значением
.
101
Линейные модели
Объединить категории для максимизации взаимосвязи с целеым полем
выявляет
“
похожие
”
категории предикторов на основе взаимосвязи между входными и целевой
переменными
.
Категории
,
которые не различаются значимо
(
т
.
е
.
имеющие
p
-
значение
больше
0,05),
объединяются
.
Исключить предиктор-константу / после обработки пропущенных значений / после
объединения категорий
удаляет предикторы
,
которые имеют единственное значение
,
вероятно
,
в результате выполнения дополнительных действий автоматической
подготовки данных
.
Важность предикторов
Рисунок 15-10
Вид Важность предикторов
Обычно при моделировании сосредотачивают внимание на наиболее важных предикторах и
исключают или игнорируют наименее важные
.
Это помогает сделать диаграмма важности
предикторов
,
показывая относительную важность каждого предиктора при оценке модели
.
Поскольку значения важности являются относительными
,
сумма этих значений для всех
отображаемых предикторов равна
1,0.
Важность переменных не связана с точностью
модели
.
Она лишь связана с важностью каждого предиктора для предсказания
,
а не с
точностью этого предсказания
.