ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3698
Скачиваний: 4
202
Глава 25
Задание метода иерархического кластерного анализа
Рисунок 25-2
Диалоговое окно Иерархический кластерный анализ: Метод
Метод кластеризации.
Возможные альтернативы
:
Межгрупповые связи
,
Внутригрупповые
связи
,
Ближайший сосед
,
Дальний сосед
,
Центроидная кластеризация
,
Медианная
кластеризация
,
Метод Варда
.
Мера.
Позволяет задать расстояние или меру сходства
,
которые будет использованы при
кластеризации
.
Выберите тип данных и соответствующее расстояние или меру сходства
:
Интервальная.
Возможные альтернативы
:
Евклидово расстояние
,
Квадрат расстояния
Евклида
,
Косинус
,
Корреляция Пирсона
,
Чебышев
,
Блок
,
Минковского
,
Настроенная
.
Частоты.
Возможные альтернативы
:
Мера хи
-
квадрат и Мера фи
-
квадрат
.
Бинарная.
Имеющиеся альтернативы
:
Евклидово расстояние
,
Квадрат расстояния
Евклида
,
Различие размеров
,
Различие структур
,
Дисперсия
,
Разброс
,
Форма
,
Простая
совпадений
, 4-
точечная корреляция фи
,
Лямбда
,
D
Андерберга
,
Дайс
,
Хаманн
,
Жаккар
,
Кульчинский
1,
Кульчинский
2,
Ланс и Виллиамс
,
Очиай
,
Роджерс и Танимото
,
Рассел
и Рао
,
Сокал и Сниат
1,
Сокал и Сниат
2,
Сокал и Сниат
3,
Сокал и Сниат
4,
Сокал и
Сниат
5,
Y
Юла и
Q
Юла
.
Преобразовать значения.
Позволяет стандартизировать значения данных либо для
наблюдений
,
либо для переменных до вычисления близостей
(
недоступно для бинарных
данных
).
Возможные методы стандартизации
:
Z
значения
,
Диапазон от −
1
до
1,
Диапазон
от
0
до
1,
Максимальная величина
1,
Среднее
1
и Стд
.
отклонение
1
Преобразовать меры.
Позволяет преобразовать значения
,
порожденные мерой расстояния
.
Преобразования выполняются после того
,
как вычислены значения меры расстояния
.
Возможные варианты преобразований
:
Взять модуль
,
Сменить знак
,
Привести к
0–1.
203
Иерархический кластерный анализ
Статистики для процедуры Иерархический кластерный
анализ
Рисунок 25-3
Диалоговое окно Иерархический кластерный анализ: Статистики
Порядок агломерации.
Выводятся наблюдения или кластеры
,
объединяемые на каждом
этапе
,
расстояния между объединяемыми наблюдениями или кластерами и уровень
кластеризации
,
на котором к кластеру последний раз добавлялось наблюдение
(
или
переменная
).
Матрица близостей.
Выводятся расстояния или сходства между объектами
.
Принадлежность к кластерам.
Выводится кластер
,
к которому отнесено каждое
наблюдение для одного или нескольких этапов объединения кластеров
.
Возможными
вариантами являются одно решение и диапазон решений
.
204
Глава 25
Графики для процедуры Иерархический кластерный анализ
Рисунок 25-4
Диалоговое окно Иерархический кластерный анализ: Графики
Дендрограмма.
Выводится
дендрограмма
.
Дендрограммы могут использоваться при
исследовании взаимного притяжения формируемых кластеров и предоставить информацию
о том
,
какое число кластеров сохранить
.
Сосульчатый.
Выводится
сосульчатая диаграмма
для всех кластеров или кластеров из
заданного диапазона
. C
осульчатые диаграммы дают информацию о том
,
как наблюдения
объединяются в кластеры на каждой итерации анализа
.
Панель Ориентация позволяет
выбрать между вертикальной и горизонтальной диаграммами
.
Сохранение новых переменных в процедуре Иерархический
кластерный анализ
Рисунок 25-5
Диалоговое окно Иерархический кластерный анализ: Сохранить
205
Иерархический кластерный анализ
Принадлежность к кластерам.
Позволяет сохранить принадлежность к кластерам
для одного решения или диапазона решений
.
Сохраненные переменные можно затем
использовать в последующем анализе для изучения других различий между группами
.
Дополнительные возможности синтаксиса команды
CLUSTER
Процедура иерархической кластеризации использует синтаксис команды
CLUSTER
.
Язык
синтаксиса команд также позволяет
:
Использовать несколько методов кластеризации за один прогон процедуры
.
Считывать и анализировать матрицу близостей
.
Сохранять матрицу близостей для дальнейшего анализа
.
Задавать любые значения порядков и корней для настраиваемой
(
степенной
)
меры
расстояния
.
Задавать имена сохраняемых переменных
.
Полную информацию о синтаксисе языка команд можно найти в
Руководстве по
синтаксису
.
Глава
26
Кластерный анализ методом K
средних
Эта процедура пытается выявить относительно однородные группы наблюдений на основе
выбранных характеристик
,
используя алгоритм
,
позволяющий обработать большое
число наблюдений
.
Однако этот алгоритм требует указания числа кластеров
.
Вы можете
задать начальные центры кластеров
,
если такая информация вам доступна
.
Вы можете
выбрать один из двух методов классификации наблюдений
,
либо итеративно обновляя
центры кластеров
,
либо ограничиваясь только классификацией
.
Вы можете сохранить
принадлежность к кластерам
,
информацию о расстояниях и окончательные центры
кластеров
.
Дополнительно Вы можете задать переменную
,
значения которой будут
использоваться в качестве меток наблюдений при выводе результатов
.
Вы можете также
запросить вывод
F
-
статистик дисперсионного анализа
.
Относительные величины этих
статистик дают информацию о вкладе каждой переменной в разделение групп
.
Пример.
Можно ли разбить телевизионные шоу на группы
,
так чтобы в каждой группе
зрители
,
которых они привлекают
,
были схожи
?
С помощью кластерного анализа методом
k
-
средних Вы можете разделить
(
кластеризовать
)
телевизионные шоу
(
наблюдения
)
на
k
однородных групп
,
исходя из характеристик их зрителей
.
Это можно использовать
при сегментации рынка
.
Или Вы можете разбить города
(
наблюдения
)
на однородные
группы
,
что позволит отбирать сравнимые города для проверки различных маркетинговых
стратегий
.
Статистики.
Полное решение
:
начальные центры кластеров
,
таблица дисперсионного
анализа
.
Для каждого наблюдения
:
информация о кластерах
,
расстояние от центра кластера
.
Данные.
Переменные должны быть количественными и измеренными в интервальной
шкале или шкале отношений
.
Если переменные являются бинарными или частотами
,
воспользуйтесь процедурой Иерархический кластерный анализ
.
Порядок наблюдений и начальных центров кластеров.
Алгоритм
,
используемый
по умолчанию для выбора начальных центров кластеров
,
не является инвариантным
относительно порядка наблюдений
.
Параметр
Использовать скользящие средние
в
диалоговом окне Итерации делает получающееся в результате решение потенциально
зависимым от порядка наблюдений
,
независимо от того
,
как выбираются начальные центры
кластеров
.
При использовании любого из этих методов
,
вы
,
возможно
,
захотите получить
несколько различных решений с наблюдениями
,
расположенными в случайном порядке
,
чтобы удостовериться в стабильности данного решения
.
Задание начальных центров
кластеров и не использование параметра
Использовать скользящие средние
позволит
избежать проблем
,
связанных с порядком наблюдений
.
Однако упорядочение начальных
центров кластеров может повлиять на решение
,
если имеются совпадающие расстояния от
наблюдений до центров кластеров
.
Чтобы оценить стабильность данного решения
,
можно
сравнить результаты анализа с различными перестановками значений начальных центров
.
© Copyright IBM Corporation 1989, 2011.
206