ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3698

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

202

Глава 25

Задание метода иерархического кластерного анализа

Рисунок 25-2

Диалоговое окно Иерархический кластерный анализ: Метод

Метод кластеризации.

Возможные альтернативы

:

Межгрупповые связи

,

Внутригрупповые

связи

,

Ближайший сосед

,

Дальний сосед

,

Центроидная кластеризация

,

Медианная

кластеризация

,

Метод Варда

.

Мера.

Позволяет задать расстояние или меру сходства

,

которые будет использованы при

кластеризации

.

Выберите тип данных и соответствующее расстояние или меру сходства

:

Интервальная.

Возможные альтернативы

:

Евклидово расстояние

,

Квадрат расстояния

Евклида

,

Косинус

,

Корреляция Пирсона

,

Чебышев

,

Блок

,

Минковского

,

Настроенная

.

Частоты.

Возможные альтернативы

:

Мера хи

-

квадрат и Мера фи

-

квадрат

.

Бинарная.

Имеющиеся альтернативы

:

Евклидово расстояние

,

Квадрат расстояния

Евклида

,

Различие размеров

,

Различие структур

,

Дисперсия

,

Разброс

,

Форма

,

Простая

совпадений

, 4-

точечная корреляция фи

,

Лямбда

,

D

Андерберга

,

Дайс

,

Хаманн

,

Жаккар

,

Кульчинский

1,

Кульчинский

2,

Ланс и Виллиамс

,

Очиай

,

Роджерс и Танимото

,

Рассел

и Рао

,

Сокал и Сниат

1,

Сокал и Сниат

2,

Сокал и Сниат

3,

Сокал и Сниат

4,

Сокал и

Сниат

5,

Y

Юла и

Q

Юла

.

Преобразовать значения.

Позволяет стандартизировать значения данных либо для

наблюдений

,

либо для переменных до вычисления близостей

(

недоступно для бинарных

данных

).

Возможные методы стандартизации

:

Z

значения

,

Диапазон от −

1

до

1,

Диапазон

от

0

до

1,

Максимальная величина

1,

Среднее

1

и Стд

.

отклонение

1

Преобразовать меры.

Позволяет преобразовать значения

,

порожденные мерой расстояния

.

Преобразования выполняются после того

,

как вычислены значения меры расстояния

.

Возможные варианты преобразований

:

Взять модуль

,

Сменить знак

,

Привести к

0–1.


background image

203

Иерархический кластерный анализ

Статистики для процедуры Иерархический кластерный

анализ

Рисунок 25-3

Диалоговое окно Иерархический кластерный анализ: Статистики

Порядок агломерации.

Выводятся наблюдения или кластеры

,

объединяемые на каждом

этапе

,

расстояния между объединяемыми наблюдениями или кластерами и уровень

кластеризации

,

на котором к кластеру последний раз добавлялось наблюдение

(

или

переменная

).

Матрица близостей.

Выводятся расстояния или сходства между объектами

.

Принадлежность к кластерам.

Выводится кластер

,

к которому отнесено каждое

наблюдение для одного или нескольких этапов объединения кластеров

.

Возможными

вариантами являются одно решение и диапазон решений

.


background image

204

Глава 25

Графики для процедуры Иерархический кластерный анализ

Рисунок 25-4

Диалоговое окно Иерархический кластерный анализ: Графики

Дендрограмма.

Выводится

дендрограмма

.

Дендрограммы могут использоваться при

исследовании взаимного притяжения формируемых кластеров и предоставить информацию
о том

,

какое число кластеров сохранить

.

Сосульчатый.

Выводится

сосульчатая диаграмма

для всех кластеров или кластеров из

заданного диапазона

. C

осульчатые диаграммы дают информацию о том

,

как наблюдения

объединяются в кластеры на каждой итерации анализа

.

Панель Ориентация позволяет

выбрать между вертикальной и горизонтальной диаграммами

.

Сохранение новых переменных в процедуре Иерархический

кластерный анализ

Рисунок 25-5

Диалоговое окно Иерархический кластерный анализ: Сохранить


background image

205

Иерархический кластерный анализ

Принадлежность к кластерам.

Позволяет сохранить принадлежность к кластерам

для одного решения или диапазона решений

.

Сохраненные переменные можно затем

использовать в последующем анализе для изучения других различий между группами

.

Дополнительные возможности синтаксиса команды

CLUSTER

Процедура иерархической кластеризации использует синтаксис команды

CLUSTER

.

Язык

синтаксиса команд также позволяет

:

Использовать несколько методов кластеризации за один прогон процедуры

.

Считывать и анализировать матрицу близостей

.

Сохранять матрицу близостей для дальнейшего анализа

.

Задавать любые значения порядков и корней для настраиваемой

(

степенной

)

меры

расстояния

.

Задавать имена сохраняемых переменных

.

Полную информацию о синтаксисе языка команд можно найти в

Руководстве по

синтаксису

.


background image

Глава

26

Кластерный анализ методом K

средних

Эта процедура пытается выявить относительно однородные группы наблюдений на основе
выбранных характеристик

,

используя алгоритм

,

позволяющий обработать большое

число наблюдений

.

Однако этот алгоритм требует указания числа кластеров

.

Вы можете

задать начальные центры кластеров

,

если такая информация вам доступна

.

Вы можете

выбрать один из двух методов классификации наблюдений

,

либо итеративно обновляя

центры кластеров

,

либо ограничиваясь только классификацией

.

Вы можете сохранить

принадлежность к кластерам

,

информацию о расстояниях и окончательные центры

кластеров

.

Дополнительно Вы можете задать переменную

,

значения которой будут

использоваться в качестве меток наблюдений при выводе результатов

.

Вы можете также

запросить вывод

F

-

статистик дисперсионного анализа

.

Относительные величины этих

статистик дают информацию о вкладе каждой переменной в разделение групп

.

Пример.

Можно ли разбить телевизионные шоу на группы

,

так чтобы в каждой группе

зрители

,

которых они привлекают

,

были схожи

?

С помощью кластерного анализа методом

k

-

средних Вы можете разделить

(

кластеризовать

)

телевизионные шоу

(

наблюдения

)

на

k

однородных групп

,

исходя из характеристик их зрителей

.

Это можно использовать

при сегментации рынка

.

Или Вы можете разбить города

(

наблюдения

)

на однородные

группы

,

что позволит отбирать сравнимые города для проверки различных маркетинговых

стратегий

.

Статистики.

Полное решение

:

начальные центры кластеров

,

таблица дисперсионного

анализа

.

Для каждого наблюдения

:

информация о кластерах

,

расстояние от центра кластера

.

Данные.

Переменные должны быть количественными и измеренными в интервальной

шкале или шкале отношений

.

Если переменные являются бинарными или частотами

,

воспользуйтесь процедурой Иерархический кластерный анализ

.

Порядок наблюдений и начальных центров кластеров.

Алгоритм

,

используемый

по умолчанию для выбора начальных центров кластеров

,

не является инвариантным

относительно порядка наблюдений

.

Параметр

Использовать скользящие средние

в

диалоговом окне Итерации делает получающееся в результате решение потенциально
зависимым от порядка наблюдений

,

независимо от того

,

как выбираются начальные центры

кластеров

.

При использовании любого из этих методов

,

вы

,

возможно

,

захотите получить

несколько различных решений с наблюдениями

,

расположенными в случайном порядке

,

чтобы удостовериться в стабильности данного решения

.

Задание начальных центров

кластеров и не использование параметра

Использовать скользящие средние

позволит

избежать проблем

,

связанных с порядком наблюдений

.

Однако упорядочение начальных

центров кластеров может повлиять на решение

,

если имеются совпадающие расстояния от

наблюдений до центров кластеров

.

Чтобы оценить стабильность данного решения

,

можно

сравнить результаты анализа с различными перестановками значений начальных центров

.

© Copyright IBM Corporation 1989, 2011.

206