ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3700

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

207

Кластерный анализ методом K средних

Предположения.

Для вычисления расстояний используется простое евклидово расстояние

.

Если необходимо задать другой тип расстояния или меры сходства

,

обратитесь к процедуре

Иерархический кластерный анализ

.

Масштабирование переменных играет важную роль

.

Если ваши переменные имеют различный масштаб измерений

(

например

,

одна переменная

измерена в долларах

,

а вторая

-

в годах

),

то результаты могут быть некорректными

.

В

этой ситуации необходимо подумать о стандартизации ваших переменных до выполнения
кластерного анализа методом

k

-

средних

(

это можно сделать при помощи процедуры

Описательные статистики

).

Предполагается

,

что выбрано подходящее число кластеров

,

а в

анализ включены все существенные переменные

.

Если Вы неправильно выбрали число

кластеров или не включили важные переменные

,

то полученные результаты также могут

ввести Вас в заблуждение

.

Как запустить Кластерный анализ методом k-средних

E

Выберите в меню

:

Анализ > Классификация > Кластеризация К-средними...

Рисунок 26-1

Диалоговое окно Кластерный анализ методом K средних

E

Выберите переменные для использования в кластерном анализе

.

E

Задайте число кластеров

. (

Оно должно быть не меньше двух и не больше числа наблюдений

в файле данных

.)

E

Выберите либо метод

Итерации и классификация

,

либо метод

Только классификация

.


background image

208

Глава 26

E

Дополнительно можно выбрать идентификационную переменную

,

чтобы метить

наблюдения

.

Эффективность кластерного анализа методом k-средних

Алгоритм

k

-

средних эффективен прежде всего потому

,

что он не нуждается в вычислении

всех попарных расстояний между наблюдениями

,

в отличие от большинства других

алгоритмов кластеризации

,

включая тот

,

что используется в процедуре иерархического

кластерного анализа

.

Для достижения максимальной эффективности возьмите выборку из наблюдений

и используйте метод

Итерации и классификация

,

чтобы определить центры кластеров

.

Выберите

Записать окончательные в

.

Затем вернитесь к полному файлу данных и выберите

Только классификация

в качестве метода и выберите

Прочитать начальные из

,

чтобы

классифицировать весь файл с использованием центров

,

оцененных по выборке

.

Вы можете

записывать в файл или набор данных

,

а также считывать из них

.

Наборы данных доступны

для последующего использования в том же сеансе но не сохраняются как файлы до тех пор

,

пока они не будут сохранены явно до окончания текущего сеанса

.

Имена наборов данных

должны удовлетворять требованиям к именам переменных

.

Итерации в кластерном анализе методом k-средних

Рисунок 26-2

Диалоговое окно Кластерный анализ методом K средних: Итерации

Примечание

:

Эти параметры доступны

,

только если вы выберите метод

Итерации и

классификация

в диалоговом окне Кластерный анализ методом

K

средних

.

Максимум итераций.

Ограничивает число итераций для алгоритма

k

-

средних

.

Алгоритм

останавливается после заданного здесь числа итераций

,

даже если не выполняется критерий

сходимости

.

Это число должно быть от

1

до

999.

Если необходимо воспроизвести алгоритм

,

использовавшийся командой

QUICK CLUSTER

в старых версиях

(

до

5.0),

установите

Максимум итераций

равным

1

.

Критерий сходимости.

Задает условие прекращения итераций

.

Оно выражает долю

минимального расстояния между начальными центрами кластеров

,

поэтому должно быть

больше

0,

но не превышать

1.

Если значение критерия равно

,

например

, 0.02,

итерации

прекращаются

,

когда полная итерация не сдвигает ни один из центров кластеров на

расстояние

,

превышающее

2%

от наименьшего расстояния между центрами любых

начальных кластеров

.


background image

209

Кластерный анализ методом K средних

Использовать скользящие средние.

Позволяет запросить обновление центров кластеров

после классификации очередного наблюдения

.

Если этот пункт не отмечен

,

новые центры

кластеров вычисляются после распределения по кластерам всех наблюдений

.

Сохранение новых переменных в кластерном анализе

методом k-средних

Рисунок 26-3

Диалоговое окно Кластерный анализ методом K средних: Сохранить новые переменные

Вы можете сохранить следующую информацию о решении в виде новых переменных
для использования в последующем анализе

:

Принадлежность к кластеру.

Создается новая переменная

,

показывающая окончательную

принадлежность каждого наблюдения к кластеру

.

Значения этой новой переменной могут

меняться от

1

до числа кластеров

.

Расстояние от центра кластера.

Создается новая переменная

,

показывающая евклидово

расстояние между каждым наблюдением и центром кластера

,

куда оно было отнесено

.

Параметры процедуры Кластерный анализ методом

К-средних

Рисунок 26-4

Диалоговое окно Кластерный анализ методом K средних: Параметры

Статистики.

Вы можете выбрать следующие статистики

:

начальные центры кластеров

,

таблица дисперсионного анализа

,

а также информация о принадлежности к кластерам

для каждого наблюдения

.


background image

210

Глава 26

Начальные центры кластеров.

Начальная оценка положения средних для каждого

кластера

.

По умолчанию

,

отбираются объекты

,

находящиеся на значительном

расстоянии друг от друга

,

причем столько

,

сколько задано кластеров

.

Начальные центры

кластеров используются на первом этапе грубой классификации

,

а затем обновляются

.

Таблица дисперсионного анализа.

Выводится таблица дисперсионного анализа

,

включающая одномерный

F-

критерий для каждой кластерной переменной

. F-

критерий

приводится для чисто ориентировочных целей

,

и выдаваемые вероятности не подлежат

интерпретации

.

Таблица не выдается

,

если все наблюдения попадают в один кластер

.

Конечный кластер для каждого наблюдения.

Для каждого наблюдения указывается

финальный кластер

,

к которому оно отнесено

,

и евклидово расстояние до центра

этого кластера

.

Выводится также евклидово расстояние между центрами финальных

кластеров

.

Пропущенные значения.

Возможными альтернативами являются

Исключать целиком

и

Исключать наблюдения попарно

.

Исключать целиком.

Наблюдения с пропущенными значениями в любой из кластерных

переменных исключаются из анализа

.

Исключать попарно.

Наблюдения относятся к кластерам на основании расстояний

,

вычисленных по всем переменным с непропущенными значениями

.

Команда QUICK CLUSTER: дополнительные возможности

Процедура Кластерный анализ методом

k-

средних использует синтаксис команды

QUICK

CLUSTER

.

Язык синтаксиса команд также позволяет

:

Использовать первые

k

наблюдений в качестве начальных центров кластеров

,

тем

самым избегая прохода по данным

,

обычно применяемого

,

чтобы их оценить

.

Задать начальные центры кластеров напрямую

,

как часть командного синтаксиса

.

Задавать имена сохраняемых переменных

.

Полную информацию о синтаксисе языка команд можно найти в

Руководстве по

синтаксису

.


background image

Глава

27

Непараметрические критерии

Непараметрические критерии требуют минимальных предположений о распределении
данных

.

Критерии

,

доступные с помощью данных диалоговых окон

,

можно разделить на

три общие категории в зависимости от организации данных

:

Одновыборочный критерий анализирует единственное поле

.

Критерий для связанных выборок сравнивает два или большее число полей для одного

и того же набора наблюдений

.

Критерий для независимых выборок анализирует единственное поле

,

разбитое на

группы категориями другого поля

.

Одновыборочные непараметрические критерии

Процедура Одновыборочные непараметрические критерии выявляет различия в единичных
полях

,

используя один или несколько непараметрических критериев

.

Непараметрические

критерии не предполагают

,

что данные соответствуют нормальному распределению

.

Рисунок 27-1

Вкладка Одновыборочные непараметрические критерии: Цель

Какова Ваша цель?

Вкладка цели позволяет быстро задать параметры для решения

различных и в то же время наиболее типичных задач

.

Автоматически сравнить наблюденные данные с гипотетическими

Для этой цели к

категориальным полям

,

имеющим только две категории

,

применяется биномиальный

критерий

.

Ко всем остальным категориальным полям применяется критерий хи

-

квадрат

.

К непрерывным полям применяется критерий Колмогорова

-

Смирнова

.

© Copyright IBM Corporation 1989, 2011.

211