ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3690
Скачиваний: 4
187
Двухэтапный кластерный анализ
Основная и дополнительная панель Средства просмотра кластеров
,
а также различные виды
представления моделей могут помочь получить ответы на эти вопросы
.
Чтобы получить информацию о кластерной модели
,
активизируйте
(
двойным щелчком
)
в
окне вывода
Viewer
объект Средства просмотра моделей
.
Закладка Средство просмотра кластеров
Рисунок 24-4
Средство просмотра кластеров с выводом по умолчанию
Средство просмотра кластеров состоит из двух панелей
:
основной
,
находящейся слева
,
и
дополнительной
,
находящейся справа
.
Имеется два основных представления
:
Сводка для модели
(
по умолчанию
).
Вид представления Сводка для модели на стр
Кластеры
.
данная тема Вид представления Кластеры
В дополнительной панели доступны четыре вида представления
:
Важность предикторов
.
представления Важность предикторов в кластерах на стр
Размеры кластеров
(
по умолчанию
).
188
Глава 24
Распределение ячеек
.
представления Распределение в ячейке на стр
Сравнение кластеров
.
представления Сравнение кластеров на стр
Вид представления Сводка для модели
Рисунок 24-5
Представление Сводка для модели в основной панели
В представлении Сводка для модели показан
“
мгновенный снимок
”
или сводка для
кластерной модели
,
включая силуэтную меру связности и разделения кластеров
,
с
использованием затенения для индикации низкого
,
среднего и хорошего качества
полученных результатов
. “
Мгновенный снимок
”
дает возможность быстро понять
,
является
ли качество разбиения на кластеры низким
.
В этом случае
,
возможно
,
стоит вернуться к
узлу моделирования
,
чтобы скорректировать параметры для построения модели с целью
получения более приемлемых результатов
.
Решение вопроса о том
,
являются качество разбиения на кластеры низким
,
средним или
хорошими основывается на работе Кауфмана и
Rousseeuw (Kaufman and Rousseeuw
(1990)),
касающейся интерпретации кластерных структур
.
Показанное в сводке для модели
качество разбиения считается хорошим
,
если согласно оценке Кауфмана и
Rousseeuw
имеется обоснованное или сильное свидетельство наличия кластерной структуры в данных
.
Среднее качество разбиения соответствует их оценке иметь слабое свидетельство
,
а низкое
соответствует оценке не иметь значимого свидетельства наличия кластерной структуры
.
Силуэтная мера усредняет по всем записям величину
(B
−
A) / max(A,B),
где
A -
это
расстояние от записи до центра ее кластера
,
а
B -
это расстояние от записи до центра
ближайшего кластера
,
к которому она не принадлежит
.
Силуэтный коэффициент
,
равный
1,
означал бы
,
что все наблюдения расположены точно в центрах их кластеров
.
Значение
−
1
означало бы
,
что все наблюдения расположены в центрах некоторых других кластеров
.
Значение
0
означает
,
что наблюдения расположены в среднем на равных расстояниях от
центра их кластера и центра ближайшего кластера
.
189
Двухэтапный кластерный анализ
Сводка включает таблицу
,
которая содержит следующую информацию
:
Алгоритм.
Используемый алгоритм кластеризации
,
например
, “
Двухэтапный
”.
Исходные показатели.
Число полей
,
также называемых
входными
или
предикторами
.
Кластеры.
Число кластеров в решении
.
Вид представления Кластеры
Рисунок 24-6
Представление Центры кластеров в основной панели
Представление Кластеры содержит
“
сетку
”
кластеров по показателям
,
которая включает
имена кластеров
,
объемы
(
размеры
)
и профили каждого кластера
.
Столбцы в сетке содержат следующую информацию
:
Кластер.
Номера кластеров
,
созданных в результате работы алгоритма
.
Метка.
Любые метки
,
заданные для кластеров
(
по умолчанию они пустые
).
Дважды
щелкните по ячейке
,
чтобы ввести метку
,
описывающую содержимое кластера
,
например
, “
Покупатели престижных автомобилей
”.
Описание.
Описание содержимого кластеров
(
по умолчанию оно пустое
).
Дважды
щелкните по ячейке
,
чтобы ввести описание кластера
,
например
, “
возраст
55+
лет
,
профессионалы
,
доход превосходит
$100000”.
190
Глава 24
Размер.
Размер каждого кластера в виде процента от общего размера выборки
,
которая
использовалась для построения модели кластеризации
.
В каждой ячейке размера внутри
сетки выводится вертикальный столбик
,
показывающий размер кластера в процентах
,
размер кластера в процентах в числовом виде и число наблюдений в кластере
.
Показатели.
Отдельные предикторы
,
по умолчанию отсортированные по общей
важности
.
Если какие
-
либо столбцы имеют одинаковые размеры
,
они выводятся в
возрастающем порядке номеров кластеров
.
Общая важность показателей обозначается интенсивностью цвет фона ячейки
:
наиболее
важный показатель является наиболее темным
.
Легенда над таблицей показывает
соответствие между важностью и интенсивностью цвета
.
Если поместить указатель мыши на ячейку
,
то будет выведено полное имя
/
метка показателя
и значение важности для этой ячейки
.
В зависимости от типа показателя и вида
представления может быть выведена дополнительная информация
.
Для представления
Центры кластеров такая информация будет включать статистику ячейки и значение ячейки
,
например
, “
Среднее
: 4.32”.
Для категориальных показателей в ячейке показывается имя
наиболее часто встречающейся
(
модальной
)
категории и соответствующий ей процент
.
Внутри представления Кластеры можно выбрать различные способы вывода информации о
кластерах
:
Транспонировать кластеры и показатели
.
тема Транспонировать кластеры и показатели на стр
Сортировать показатели
.
Сортировать кластеры
.
Выбрать содержимое ячеек
.
Транспонировать кластеры и показатели
По умолчанию
,
кластеры выводятся как столбцы
,
а показатели выводятся как строки
.
Чтобы поменять местами строки и столбцы в выводе
,
щелкните по кнопке
Транспонировать
кластеры и показатели
,
расположенной слева от кнопки
Сортировать показатели по
.
Например
,
это можно сделать
,
чтобы реже пользоваться горизонтальной прокруткой при
просмотре данных
,
когда выведено много кластеров
.
191
Двухэтапный кластерный анализ
Рисунок 24-7
Транспонированные кластеры в основной панели
Сортировать показатели
Кнопка
Сортировать показатели по
позволяет выбрать
,
как выводить ячейки показателей
:
Общая важность.
Этот порядок сортировки задан по умолчанию
.
Показатели
сортируются в убывающем порядке общей важности
,
и порядок сортировки один
и тот же по всем кластерам
.
Если какие
-
либо показатели имеют совпадающие
значения важности
,
то такие показатели перечисляются в возрастающем порядке
имен показателей
.
Важность для кластера.
Показатели сортируются по их важности для каждого
кластера
.
Если какие
-
либо показатели имеют совпадающие значения важности
,
то
такие показатели перечисляются в возрастающем порядке имен показателей
.
Если
выбран этот вариант
,
порядок сортировки в кластерах обычно различается
.
Имя.
Показатели сортируются по именам в алфавитном порядке
.
Порядок следования в данных.
Показатели сортируются по порядку их расположения
в наборе данных
.
Сортировать кластеры
По умолчанию кластеры сортируются в убывающем порядке их размеров
.
Кнопка
Сортировать кластеры по
позволяет сортировать кластеры по именам в алфавитном порядке
или
,
если заданы уникальные метки
,
в алфавитном порядке меток
.
Показатели
,
которые имеют одну и ту же метку
,
сортируются по именам кластеров
.
Если
кластеры отсортированы по метками и метки редактируются
,
то порядок сортировки
автоматически меняется
.
Содержимое ячеек.
Кнопки
Ячейки
позволяют изменить вывод содержимого ячеек для показателей и полей
оценивания
.