ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3690

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

187

Двухэтапный кластерный анализ

Основная и дополнительная панель Средства просмотра кластеров

,

а также различные виды

представления моделей могут помочь получить ответы на эти вопросы

.

Чтобы получить информацию о кластерной модели

,

активизируйте

(

двойным щелчком

)

в

окне вывода

Viewer

объект Средства просмотра моделей

.

Закладка Средство просмотра кластеров

Рисунок 24-4

Средство просмотра кластеров с выводом по умолчанию

Средство просмотра кластеров состоит из двух панелей

:

основной

,

находящейся слева

,

и

дополнительной

,

находящейся справа

.

Имеется два основных представления

:

Сводка для модели

(

по умолчанию

).

Дополнительную информацию см

.

данная тема

Вид представления Сводка для модели на стр

. 188.

Кластеры

.

Дополнительную информацию см

.

данная тема Вид представления Кластеры

на стр

. 189.

В дополнительной панели доступны четыре вида представления

:

Важность предикторов

.

Дополнительную информацию см

.

данная тема Вид

представления Важность предикторов в кластерах на стр

. 193.

Размеры кластеров

(

по умолчанию

).

Дополнительную информацию см

.

данная тема

Вид представления Размеры кластеров на стр

. 194.


background image

188

Глава 24

Распределение ячеек

.

Дополнительную информацию см

.

данная тема Вид

представления Распределение в ячейке на стр

. 195.

Сравнение кластеров

.

Дополнительную информацию см

.

данная тема Вид

представления Сравнение кластеров на стр

. 196.

Вид представления Сводка для модели

Рисунок 24-5

Представление Сводка для модели в основной панели

В представлении Сводка для модели показан

мгновенный снимок

или сводка для

кластерной модели

,

включая силуэтную меру связности и разделения кластеров

,

с

использованием затенения для индикации низкого

,

среднего и хорошего качества

полученных результатов

. “

Мгновенный снимок

дает возможность быстро понять

,

является

ли качество разбиения на кластеры низким

.

В этом случае

,

возможно

,

стоит вернуться к

узлу моделирования

,

чтобы скорректировать параметры для построения модели с целью

получения более приемлемых результатов

.

Решение вопроса о том

,

являются качество разбиения на кластеры низким

,

средним или

хорошими основывается на работе Кауфмана и

Rousseeuw (Kaufman and Rousseeuw

(1990)),

касающейся интерпретации кластерных структур

.

Показанное в сводке для модели

качество разбиения считается хорошим

,

если согласно оценке Кауфмана и

Rousseeuw

имеется обоснованное или сильное свидетельство наличия кластерной структуры в данных

.

Среднее качество разбиения соответствует их оценке иметь слабое свидетельство

,

а низкое

соответствует оценке не иметь значимого свидетельства наличия кластерной структуры

.

Силуэтная мера усредняет по всем записям величину

(B

A) / max(A,B),

где

A -

это

расстояние от записи до центра ее кластера

,

а

B -

это расстояние от записи до центра

ближайшего кластера

,

к которому она не принадлежит

.

Силуэтный коэффициент

,

равный

1,

означал бы

,

что все наблюдения расположены точно в центрах их кластеров

.

Значение

1

означало бы

,

что все наблюдения расположены в центрах некоторых других кластеров

.

Значение

0

означает

,

что наблюдения расположены в среднем на равных расстояниях от

центра их кластера и центра ближайшего кластера

.


background image

189

Двухэтапный кластерный анализ

Сводка включает таблицу

,

которая содержит следующую информацию

:

Алгоритм.

Используемый алгоритм кластеризации

,

например

, “

Двухэтапный

”.

Исходные показатели.

Число полей

,

также называемых

входными

или

предикторами

.

Кластеры.

Число кластеров в решении

.

Вид представления Кластеры

Рисунок 24-6

Представление Центры кластеров в основной панели

Представление Кластеры содержит

сетку

кластеров по показателям

,

которая включает

имена кластеров

,

объемы

(

размеры

)

и профили каждого кластера

.

Столбцы в сетке содержат следующую информацию

:

Кластер.

Номера кластеров

,

созданных в результате работы алгоритма

.

Метка.

Любые метки

,

заданные для кластеров

(

по умолчанию они пустые

).

Дважды

щелкните по ячейке

,

чтобы ввести метку

,

описывающую содержимое кластера

,

например

, “

Покупатели престижных автомобилей

”.

Описание.

Описание содержимого кластеров

(

по умолчанию оно пустое

).

Дважды

щелкните по ячейке

,

чтобы ввести описание кластера

,

например

, “

возраст

55+

лет

,

профессионалы

,

доход превосходит

$100000”.


background image

190

Глава 24

Размер.

Размер каждого кластера в виде процента от общего размера выборки

,

которая

использовалась для построения модели кластеризации

.

В каждой ячейке размера внутри

сетки выводится вертикальный столбик

,

показывающий размер кластера в процентах

,

размер кластера в процентах в числовом виде и число наблюдений в кластере

.

Показатели.

Отдельные предикторы

,

по умолчанию отсортированные по общей

важности

.

Если какие

-

либо столбцы имеют одинаковые размеры

,

они выводятся в

возрастающем порядке номеров кластеров

.

Общая важность показателей обозначается интенсивностью цвет фона ячейки

:

наиболее

важный показатель является наиболее темным

.

Легенда над таблицей показывает

соответствие между важностью и интенсивностью цвета

.

Если поместить указатель мыши на ячейку

,

то будет выведено полное имя

/

метка показателя

и значение важности для этой ячейки

.

В зависимости от типа показателя и вида

представления может быть выведена дополнительная информация

.

Для представления

Центры кластеров такая информация будет включать статистику ячейки и значение ячейки

,

например

, “

Среднее

: 4.32”.

Для категориальных показателей в ячейке показывается имя

наиболее часто встречающейся

(

модальной

)

категории и соответствующий ей процент

.

Внутри представления Кластеры можно выбрать различные способы вывода информации о
кластерах

:

Транспонировать кластеры и показатели

.

Дополнительную информацию см

.

данная

тема Транспонировать кластеры и показатели на стр

. 190.

Сортировать показатели

.

Дополнительную информацию см

.

данная тема Сортировать

показатели на стр

. 191.

Сортировать кластеры

.

Дополнительную информацию см

.

данная тема Сортировать

кластеры на стр

. 191.

Выбрать содержимое ячеек

.

Дополнительную информацию см

.

данная тема

Содержимое ячеек

.

на стр

. 191.

Транспонировать кластеры и показатели

По умолчанию

,

кластеры выводятся как столбцы

,

а показатели выводятся как строки

.

Чтобы поменять местами строки и столбцы в выводе

,

щелкните по кнопке

Транспонировать

кластеры и показатели

,

расположенной слева от кнопки

Сортировать показатели по

.

Например

,

это можно сделать

,

чтобы реже пользоваться горизонтальной прокруткой при

просмотре данных

,

когда выведено много кластеров

.


background image

191

Двухэтапный кластерный анализ

Рисунок 24-7

Транспонированные кластеры в основной панели

Сортировать показатели

Кнопка

Сортировать показатели по

позволяет выбрать

,

как выводить ячейки показателей

:

Общая важность.

Этот порядок сортировки задан по умолчанию

.

Показатели

сортируются в убывающем порядке общей важности

,

и порядок сортировки один

и тот же по всем кластерам

.

Если какие

-

либо показатели имеют совпадающие

значения важности

,

то такие показатели перечисляются в возрастающем порядке

имен показателей

.

Важность для кластера.

Показатели сортируются по их важности для каждого

кластера

.

Если какие

-

либо показатели имеют совпадающие значения важности

,

то

такие показатели перечисляются в возрастающем порядке имен показателей

.

Если

выбран этот вариант

,

порядок сортировки в кластерах обычно различается

.

Имя.

Показатели сортируются по именам в алфавитном порядке

.

Порядок следования в данных.

Показатели сортируются по порядку их расположения

в наборе данных

.

Сортировать кластеры

По умолчанию кластеры сортируются в убывающем порядке их размеров

.

Кнопка

Сортировать кластеры по

позволяет сортировать кластеры по именам в алфавитном порядке

или

,

если заданы уникальные метки

,

в алфавитном порядке меток

.

Показатели

,

которые имеют одну и ту же метку

,

сортируются по именам кластеров

.

Если

кластеры отсортированы по метками и метки редактируются

,

то порядок сортировки

автоматически меняется

.

Содержимое ячеек.

Кнопки

Ячейки

позволяют изменить вывод содержимого ячеек для показателей и полей

оценивания

.