ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3691

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

182

Глава 24

Количество непрерывных переменных.

Эта группа дает сводную информацию об

установках

,

касающихся стандартизации непрерывных переменных

,

заданных в диалоговом

окне Параметры

.

Дополнительную информацию см

.

данная тема Параметры процедуры

Двухэтапный кластерный анализ на стр

. 183.

Критерий кластеризации.

Выбор в этой группе задает способ

,

которым автоматический

алгоритм кластеризации определяет число кластеров

.

Можно задать либо Байесовский

информационный критерий

(BIC),

либо Информационный критерий Акаике

(AIC).

Данные.

Данная процедура работает как с непрерывными

,

так и с категориальными

переменными

.

Наблюдения представляют собой объекты кластеризации

,

а переменные

являются атрибутами

,

на которых основывается кластеризация

.

Порядок наблюдений.

Обратите внимание на то

,

что дерево свойств кластеров и

окончательное решение могут зависеть от порядка наблюдений

.

Чтобы минимизировать

эффект порядка наблюдений

,

расположите их в случайном порядке

.

Возможно

,

что вы

захотите получить несколько различных решений с наблюдениями

,

упорядоченными

случайным образом

,

чтобы проверить стабильность данного решения

.

В ситуациях

,

когда

это трудно сделать в силу чрезвычайно больших размеров файлов

,

можно в качестве

альтернативы несколько раз выполнить процедуру с выборкой наблюдений

,

отсортировывая

ее в случайном порядке

.

Предположения.

Мера расстояния

,

основанная на правдоподобии

,

предполагает

,

что

переменные в кластерной модели являются независимыми

.

Кроме того предполагается

,

что каждая непрерывная переменная имеет нормальное

(

гауссово

)

распределение

,

а

каждая категориальная переменная

-

мультиномиальное распределение

.

Эмпирические

исследования показывают

,

что эта процедура вполне устойчива к нарушениям

предположений как о независимости

,

так и о распределениях

,

однако следует проверить

,

насколько эти предположения выполняются

.

Для проверки независимости двух непрерывных переменных воспользуйтесь процедурой

Парные корреляции

Для проверки независимости двух категориальных переменных

воспользуйтесь процедурой

Таблицы сопряженности

.

Для проверки независимости между

непрерывной переменной и категориальной переменной воспользуйтесь процедурой

Средние

.

Для проверки нормальности непрерывной переменной воспользуйтесь

процедурой

Исследовать

.

Для проверки того

,

что категориальная переменная имеет

заданное мультиномиальное распределение

,

воспользуйтесь процедурой

Критерий

хи

-

квадрат

.

Как запустить процедуру Двухэтапный кластерный анализ

E

Выберите в меню

:

Анализ > Классификация > Двухэтапный кластерный анализ...

E

Выберите одну или несколько категориальных или непрерывных переменных

.

Дополнительно Вы можете

:

Установить критерии

,

по которым формируются кластеры

.

Выбрать установки для обработки шумов

,

выделения памяти

,

стандартизации

переменных и ввода кластерной модели

.


background image

183

Двухэтапный кластерный анализ

Запрос вывода средства просмотра моделей

.

Сохранить результаты построения модели в рабочем файле или внешнем

XML

файле

.

Параметры процедуры Двухэтапный кластерный анализ

Рисунок 24-2

Диалоговое окно Параметры двухэтапного кластерного анализа

Обработка выбросов.

Эта группа позволяет обрабатывать выбросы специальным образом

во время кластеризации

,

если заполняется дерево свойств кластеров

(

СК

).

Дерево свойств

кластеров

(

СК

)

является полным

,

если оно не может больше принимать наблюдения в

какой

-

либо узел и никакой узел не может быть разделен

.

Если вы задали обработку шумов и дерево свойств

(

СК

)

кластеров заполняется

,

то оно

будет перестроено после того

,

как наблюдения в разреженных листьях будут помещены

в лист шума

.

Лист считается разреженным

,

если он содержит меньше наблюдений

,

чем

заданный процент от максимального размера листа

.

После того как дерево перестроено

,

выбросы будут помещены в дерево свойств кластеров

(

СК

),

если это возможно

.

В

противном случае выбросы будут отброшены

.

Если вы не выберете обработку шумов и дерево свойств кластеров

(

СК

)

заполняется

,

то

оно будет перестроено с использованием большего порога изменения расстояния

.

После

окончательного разбиения на кластеры

,

значения

,

которые не могут быть приписаны к


background image

184

Глава 24

кластерам

,

помечаются как выбросы

.

Кластеру выбросов дается идентификационный

номер

–1,

и он не включается в подсчет числа кластеров

.

Выделение памяти.

Эта группа позволяет задать максимальное количество памяти в

мегабайтах

(MB),

которую должен использовать алгоритм кластеризации

.

Если процедура

превысит этот максимум

,

то она использует диск для хранения информации

,

которая не

умещается в памяти

.

Задайте число

,

большее или равное

4.

Проконсультируйтесь с вашим системным администратором по поводу максимального

значения

,

которое может быть задано для Вашей системы

.

Алгоритм может не найти подходящее или желаемое число кластеров

,

если это значение

слишком мало

.

Стандартизация переменных.

Алгоритм кластеризации работает со стандартизованными

непрерывными переменными

.

Все непрерывные переменные

,

которые не стандартизованы

,

должны быть оставлены в списке Подлежат стандартизации

.

Чтобы несколько сэкономить

время и снизить вычислительные затраты

,

можно поместить все непрерывные переменные

,

которые уже стандартизованы

,

в список Считаются стандартизованными

.

Дополнительные параметры

Критерии настройки дерева свойств кластеров (СК).

Следующие установки алгоритма

кластеризации относятся непосредственно к к дереву свойств кластеров

(

СК

),

и их следует

изменять с осторожностью

:

Начальный порог изменения расстояния.

Это начальный порог

,

используемый для

построения дерева СК

.

Если включение данного наблюдения в лист дерева СК даст

плотность

,

меньшую

,

чем порог

,

то лист не разделяется

.

Если плотность превосходит

порог

,

то лист разделяется

.

Максимальное число ветвей (на узел).

Максимальное число узлов

,

являющихся

непосредственными потомками

,

которое может иметь узел

.

Максимальная глубина дерева.

Максимальное число уровней

,

которое может иметь

дерево СК

.

Максимально возможное число узлов.

Это указывает максимальное число узлов

в дереве СК

,

которые могут быть созданы процедурой

,

на основе функции

(

b

d+1

1) /

(b

– 1),

где

b

есть максимальное число ветвей

,

а

d

есть максимальная глубина

дерева

.

Отдавайте себе отчет в том

,

что чрезмерно большое дерево СК может вызвать

перерасход системных ресурсов и неблагоприятно повлиять на эффективность
процедуры

.

Каждый узел требует

,

как минимум

, 16

байт

.

Обновление модели кластеров.

Эта группа позволяет импортировать и обновлять модель

кластеров

,

полученную в результате проведенного ранее анализа

.

Входной файл содержит

дерево СК в формате

XML.

Позже эта модель будет обновлена с помощью данных

,

содержащихся в активном файле

.

В главном диалоговом окне имена переменных должны

быть выбраны в том же порядке

,

в котором они были заданы во время проведенного ранее

анализа

.

Файл

XML

остается неизменным до тех пор

,

пока вы не сохраните информацию о

новой модели под тем же именем

.

Дополнительную информацию см

.

данная тема Вывод

процедуры Двухэтапный кластерный анализ на стр

. 185.


background image

185

Двухэтапный кластерный анализ

Если задано обновление модели кластеров

,

используются те параметры

,

относящиеся к

формированию дерева СК

,

которые были заданы для исходной модели

.

Более конкретно

,

используются мера расстояния

,

выделение памяти и установки в критериях настройки

дерева СК для сохраненной модели

,

а любые установки для этих параметров

,

заданные в

диалоговых окнах

,

игнорируются

.

Примечание

:

При выполнении обновления модели кластеров процедура предполагает

,

что

никакие из выбранных в активном наборе данных наблюдений

,

не были использованы для

создания исходной модели кластеров

.

Процедура также предполагает

,

что наблюдения

,

используемые при обновлении модели

,

извлечены из той же генеральной совокупности

,

что и наблюдения

,

использованные при создании исходной модели

;

т

.

е

.

средние

значения и дисперсии непрерывных переменных и уровни категориальных переменных
предполагаются одинаковыми по обоим наборам наблюдений

.

Если

новый

и

старый

наборы наблюдений извлечены из неоднородных генеральных совокупностей

,

то для

получения наилучших результатов следует запустить процедуру Двухэтапный кластерный
анализ для объединенного набора наблюдений

.

Вывод процедуры Двухэтапный кластерный анализ

Рисунок 24-3

Диалоговое окно Вывод двухэтапного кластерного анализа

Средство просмотра моделей.

Эта группа предоставляет параметры для вывода таблиц

результатов кластеризации

.


background image

186

Глава 24

Диаграммы и таблицы.

Отображается вывод

,

относящийся к модели

,

включая таблицы

и диаграммы

.

При просмотре таблиц отображаются

c

водная таблица по модели и сетка

кластеров по функциям

.

Графический вывод в виде модели включает диаграмму

качества кластера

,

размеры кластеров

,

диаграмму важности переменных

,

сетку

сравнения кластеров и информацию о ячейке

.

Поля нормирования.

Здесь вычисляются данные кластера для переменных

,

которые

не использовались в создании кластера

.

Поля нормирования могут отображаться

вместе с входными функциями

,

если их выбрать в диалоговом окне Вывод

.

Поля с

пропущенными значениями игнорируются

.

Рабочий файл данных.

Эта группа позволяет сохранить переменные в активном наборе

данных

.

Создать переменную принадлежности к кластерам.

Эта переменная содержит

идентификационный номер кластера для каждого наблюдения

.

Эта переменная имеет

имя

tsc_n

,

где

n

является положительным целым числом

,

обозначающим порядковый

номер операции сохранения активного набора данных

,

выполненной этой процедурой в

течение данного сеанса работы

.

Файлы XML.

Окончательная модель кластеров и дерево СК являются двумя типами

выходных файлов

,

которые можно экспортировать в формате

XML.

Экспортировать окончательную модель.

Окончательная модель кластеров

экспортируется в заданном файле в формате

XML (PMML).

Этот файл модели можно

использовать для применения информации о модели к другим файлам данных с целью
скоринга

.

Экспортировать дерево свойств кластеров (СК).

Этот параметр позволяет сохранить

текущее состояние дерева кластеров и обновить его позже

,

используя новые данные

.

Средство просмотра кластеров

Кластерные модели обычно используются для выявления групп

(

или кластеров

)

похожих

записей путем исследования переменных

,

в которых сходство членов одной группы велико

,

а сходство представителей разных групп мало

.

Полученные результаты можно использовать

для идентификации взаимосвязей

,

которые другим путем было бы трудно обнаружить

.

Например

,

с помощью кластерного анализа предпочтений покупателей

,

уровня доходов и

покупательских привычек можно идентифицировать типы клиентов

,

которые с большей

вероятностью откликнуться на проводимую маркетинговую кампанию

.

Имеются два подхода к интерпретации выведенных результатов кластерного анализа

:

Исследовать кластеры с целью выявления уникальных особенностей отдельных

кластеров

.

Содержит ли один кластер всех заемщиков с высоким доходом

?

Содержит

ли данный кластер больше записей

,

чем остальные

?

Исследовать поля по кластерам

,

чтобы определить

,

как распределяются значения среди

кластеров

.

Определяет ли уровень образования конкретного лица принадлежность к

кластеру

?

Определяет ли высокий кредитный балл принадлежность к тому или иному

кластеру

?