ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3691
Скачиваний: 4
182
Глава 24
Количество непрерывных переменных.
Эта группа дает сводную информацию об
установках
,
касающихся стандартизации непрерывных переменных
,
заданных в диалоговом
окне Параметры
.
данная тема Параметры процедуры
Двухэтапный кластерный анализ на стр
Критерий кластеризации.
Выбор в этой группе задает способ
,
которым автоматический
алгоритм кластеризации определяет число кластеров
.
Можно задать либо Байесовский
информационный критерий
(BIC),
либо Информационный критерий Акаике
(AIC).
Данные.
Данная процедура работает как с непрерывными
,
так и с категориальными
переменными
.
Наблюдения представляют собой объекты кластеризации
,
а переменные
являются атрибутами
,
на которых основывается кластеризация
.
Порядок наблюдений.
Обратите внимание на то
,
что дерево свойств кластеров и
окончательное решение могут зависеть от порядка наблюдений
.
Чтобы минимизировать
эффект порядка наблюдений
,
расположите их в случайном порядке
.
Возможно
,
что вы
захотите получить несколько различных решений с наблюдениями
,
упорядоченными
случайным образом
,
чтобы проверить стабильность данного решения
.
В ситуациях
,
когда
это трудно сделать в силу чрезвычайно больших размеров файлов
,
можно в качестве
альтернативы несколько раз выполнить процедуру с выборкой наблюдений
,
отсортировывая
ее в случайном порядке
.
Предположения.
Мера расстояния
,
основанная на правдоподобии
,
предполагает
,
что
переменные в кластерной модели являются независимыми
.
Кроме того предполагается
,
что каждая непрерывная переменная имеет нормальное
(
гауссово
)
распределение
,
а
каждая категориальная переменная
-
мультиномиальное распределение
.
Эмпирические
исследования показывают
,
что эта процедура вполне устойчива к нарушениям
предположений как о независимости
,
так и о распределениях
,
однако следует проверить
,
насколько эти предположения выполняются
.
Для проверки независимости двух непрерывных переменных воспользуйтесь процедурой
Для проверки независимости двух категориальных переменных
воспользуйтесь процедурой
.
Для проверки независимости между
непрерывной переменной и категориальной переменной воспользуйтесь процедурой
Для проверки нормальности непрерывной переменной воспользуйтесь
процедурой
Для проверки того
,
что категориальная переменная имеет
заданное мультиномиальное распределение
,
воспользуйтесь процедурой
Как запустить процедуру Двухэтапный кластерный анализ
E
Выберите в меню
:
Анализ > Классификация > Двухэтапный кластерный анализ...
E
Выберите одну или несколько категориальных или непрерывных переменных
.
Дополнительно Вы можете
:
Установить критерии
,
по которым формируются кластеры
.
Выбрать установки для обработки шумов
,
выделения памяти
,
стандартизации
переменных и ввода кластерной модели
.
183
Двухэтапный кластерный анализ
Запрос вывода средства просмотра моделей
.
Сохранить результаты построения модели в рабочем файле или внешнем
XML
файле
.
Параметры процедуры Двухэтапный кластерный анализ
Рисунок 24-2
Диалоговое окно Параметры двухэтапного кластерного анализа
Обработка выбросов.
Эта группа позволяет обрабатывать выбросы специальным образом
во время кластеризации
,
если заполняется дерево свойств кластеров
(
СК
).
Дерево свойств
кластеров
(
СК
)
является полным
,
если оно не может больше принимать наблюдения в
какой
-
либо узел и никакой узел не может быть разделен
.
Если вы задали обработку шумов и дерево свойств
(
СК
)
кластеров заполняется
,
то оно
будет перестроено после того
,
как наблюдения в разреженных листьях будут помещены
в лист шума
.
Лист считается разреженным
,
если он содержит меньше наблюдений
,
чем
заданный процент от максимального размера листа
.
После того как дерево перестроено
,
выбросы будут помещены в дерево свойств кластеров
(
СК
),
если это возможно
.
В
противном случае выбросы будут отброшены
.
Если вы не выберете обработку шумов и дерево свойств кластеров
(
СК
)
заполняется
,
то
оно будет перестроено с использованием большего порога изменения расстояния
.
После
окончательного разбиения на кластеры
,
значения
,
которые не могут быть приписаны к
184
Глава 24
кластерам
,
помечаются как выбросы
.
Кластеру выбросов дается идентификационный
номер
–1,
и он не включается в подсчет числа кластеров
.
Выделение памяти.
Эта группа позволяет задать максимальное количество памяти в
мегабайтах
(MB),
которую должен использовать алгоритм кластеризации
.
Если процедура
превысит этот максимум
,
то она использует диск для хранения информации
,
которая не
умещается в памяти
.
Задайте число
,
большее или равное
4.
Проконсультируйтесь с вашим системным администратором по поводу максимального
значения
,
которое может быть задано для Вашей системы
.
Алгоритм может не найти подходящее или желаемое число кластеров
,
если это значение
слишком мало
.
Стандартизация переменных.
Алгоритм кластеризации работает со стандартизованными
непрерывными переменными
.
Все непрерывные переменные
,
которые не стандартизованы
,
должны быть оставлены в списке Подлежат стандартизации
.
Чтобы несколько сэкономить
время и снизить вычислительные затраты
,
можно поместить все непрерывные переменные
,
которые уже стандартизованы
,
в список Считаются стандартизованными
.
Дополнительные параметры
Критерии настройки дерева свойств кластеров (СК).
Следующие установки алгоритма
кластеризации относятся непосредственно к к дереву свойств кластеров
(
СК
),
и их следует
изменять с осторожностью
:
Начальный порог изменения расстояния.
Это начальный порог
,
используемый для
построения дерева СК
.
Если включение данного наблюдения в лист дерева СК даст
плотность
,
меньшую
,
чем порог
,
то лист не разделяется
.
Если плотность превосходит
порог
,
то лист разделяется
.
Максимальное число ветвей (на узел).
Максимальное число узлов
,
являющихся
непосредственными потомками
,
которое может иметь узел
.
Максимальная глубина дерева.
Максимальное число уровней
,
которое может иметь
дерево СК
.
Максимально возможное число узлов.
Это указывает максимальное число узлов
в дереве СК
,
которые могут быть созданы процедурой
,
на основе функции
(
b
d+1
–
1) /
(b
– 1),
где
b
есть максимальное число ветвей
,
а
d
есть максимальная глубина
дерева
.
Отдавайте себе отчет в том
,
что чрезмерно большое дерево СК может вызвать
перерасход системных ресурсов и неблагоприятно повлиять на эффективность
процедуры
.
Каждый узел требует
,
как минимум
, 16
байт
.
Обновление модели кластеров.
Эта группа позволяет импортировать и обновлять модель
кластеров
,
полученную в результате проведенного ранее анализа
.
Входной файл содержит
дерево СК в формате
XML.
Позже эта модель будет обновлена с помощью данных
,
содержащихся в активном файле
.
В главном диалоговом окне имена переменных должны
быть выбраны в том же порядке
,
в котором они были заданы во время проведенного ранее
анализа
.
Файл
XML
остается неизменным до тех пор
,
пока вы не сохраните информацию о
новой модели под тем же именем
.
185
Двухэтапный кластерный анализ
Если задано обновление модели кластеров
,
используются те параметры
,
относящиеся к
формированию дерева СК
,
которые были заданы для исходной модели
.
Более конкретно
,
используются мера расстояния
,
выделение памяти и установки в критериях настройки
дерева СК для сохраненной модели
,
а любые установки для этих параметров
,
заданные в
диалоговых окнах
,
игнорируются
.
Примечание
:
При выполнении обновления модели кластеров процедура предполагает
,
что
никакие из выбранных в активном наборе данных наблюдений
,
не были использованы для
создания исходной модели кластеров
.
Процедура также предполагает
,
что наблюдения
,
используемые при обновлении модели
,
извлечены из той же генеральной совокупности
,
что и наблюдения
,
использованные при создании исходной модели
;
т
.
е
.
средние
значения и дисперсии непрерывных переменных и уровни категориальных переменных
предполагаются одинаковыми по обоим наборам наблюдений
.
Если
“
новый
”
и
“
старый
”
наборы наблюдений извлечены из неоднородных генеральных совокупностей
,
то для
получения наилучших результатов следует запустить процедуру Двухэтапный кластерный
анализ для объединенного набора наблюдений
.
Вывод процедуры Двухэтапный кластерный анализ
Рисунок 24-3
Диалоговое окно Вывод двухэтапного кластерного анализа
Средство просмотра моделей.
Эта группа предоставляет параметры для вывода таблиц
результатов кластеризации
.
186
Глава 24
Диаграммы и таблицы.
Отображается вывод
,
относящийся к модели
,
включая таблицы
и диаграммы
.
При просмотре таблиц отображаются
c
водная таблица по модели и сетка
кластеров по функциям
.
Графический вывод в виде модели включает диаграмму
качества кластера
,
размеры кластеров
,
диаграмму важности переменных
,
сетку
сравнения кластеров и информацию о ячейке
.
Поля нормирования.
Здесь вычисляются данные кластера для переменных
,
которые
не использовались в создании кластера
.
Поля нормирования могут отображаться
вместе с входными функциями
,
если их выбрать в диалоговом окне Вывод
.
Поля с
пропущенными значениями игнорируются
.
Рабочий файл данных.
Эта группа позволяет сохранить переменные в активном наборе
данных
.
Создать переменную принадлежности к кластерам.
Эта переменная содержит
идентификационный номер кластера для каждого наблюдения
.
Эта переменная имеет
имя
tsc_n
,
где
n
является положительным целым числом
,
обозначающим порядковый
номер операции сохранения активного набора данных
,
выполненной этой процедурой в
течение данного сеанса работы
.
Файлы XML.
Окончательная модель кластеров и дерево СК являются двумя типами
выходных файлов
,
которые можно экспортировать в формате
XML.
Экспортировать окончательную модель.
Окончательная модель кластеров
экспортируется в заданном файле в формате
XML (PMML).
Этот файл модели можно
использовать для применения информации о модели к другим файлам данных с целью
скоринга
.
Экспортировать дерево свойств кластеров (СК).
Этот параметр позволяет сохранить
текущее состояние дерева кластеров и обновить его позже
,
используя новые данные
.
Средство просмотра кластеров
Кластерные модели обычно используются для выявления групп
(
или кластеров
)
похожих
записей путем исследования переменных
,
в которых сходство членов одной группы велико
,
а сходство представителей разных групп мало
.
Полученные результаты можно использовать
для идентификации взаимосвязей
,
которые другим путем было бы трудно обнаружить
.
Например
,
с помощью кластерного анализа предпочтений покупателей
,
уровня доходов и
покупательских привычек можно идентифицировать типы клиентов
,
которые с большей
вероятностью откликнуться на проводимую маркетинговую кампанию
.
Имеются два подхода к интерпретации выведенных результатов кластерного анализа
:
Исследовать кластеры с целью выявления уникальных особенностей отдельных
кластеров
.
Содержит ли один кластер всех заемщиков с высоким доходом
?
Содержит
ли данный кластер больше записей
,
чем остальные
?
Исследовать поля по кластерам
,
чтобы определить
,
как распределяются значения среди
кластеров
.
Определяет ли уровень образования конкретного лица принадлежность к
кластеру
?
Определяет ли высокий кредитный балл принадлежность к тому или иному
кластеру
?