Файл: IBM_SPSS_Statistics_Base.pdf

Скачать файл (5,12Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3700

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

207

Кластерный анализ методом K средних

Предположения.

Для вычисления расстояний используется простое евклидово расстояние

Если необходимо задать другой тип расстояния или меры сходства

обратитесь к процедуре

Иерархический кластерный анализ

Масштабирование переменных играет важную роль

Если ваши переменные имеют различный масштаб измерений

(

например

одна переменная

измерена в долларах

а вторая

в годах

то результаты могут быть некорректными

этой ситуации необходимо подумать о стандартизации ваших переменных до выполнения
кластерного анализа методом

средних

(

это можно сделать при помощи процедуры

Описательные статистики

Предполагается

что выбрано подходящее число кластеров

а в

анализ включены все существенные переменные

Если Вы неправильно выбрали число

кластеров или не включили важные переменные

то полученные результаты также могут

ввести Вас в заблуждение

Как запустить Кластерный анализ методом k-средних

Выберите в меню

Анализ > Классификация > Кластеризация К-средними...

Рисунок 26-1

Диалоговое окно Кластерный анализ методом K средних

Выберите переменные для использования в кластерном анализе

Задайте число кластеров

. (

Оно должно быть не меньше двух и не больше числа наблюдений

в файле данных

Выберите либо метод

Итерации и классификация

либо метод

Только классификация

208

Глава 26

Дополнительно можно выбрать идентификационную переменную

чтобы метить

наблюдения

Эффективность кластерного анализа методом k-средних

Алгоритм

средних эффективен прежде всего потому

что он не нуждается в вычислении

всех попарных расстояний между наблюдениями

в отличие от большинства других

алгоритмов кластеризации

включая тот

что используется в процедуре иерархического

кластерного анализа

Для достижения максимальной эффективности возьмите выборку из наблюдений

и используйте метод

Итерации и классификация

чтобы определить центры кластеров

Выберите

Записать окончательные в

Затем вернитесь к полному файлу данных и выберите

Только классификация

в качестве метода и выберите

Прочитать начальные из

чтобы

классифицировать весь файл с использованием центров

оцененных по выборке

Вы можете

записывать в файл или набор данных

а также считывать из них

Наборы данных доступны

для последующего использования в том же сеансе но не сохраняются как файлы до тех пор

пока они не будут сохранены явно до окончания текущего сеанса

Имена наборов данных

должны удовлетворять требованиям к именам переменных

Итерации в кластерном анализе методом k-средних

Рисунок 26-2

Диалоговое окно Кластерный анализ методом K средних: Итерации

Примечание

Эти параметры доступны

только если вы выберите метод

Итерации и

классификация

в диалоговом окне Кластерный анализ методом

средних

Максимум итераций.

Ограничивает число итераций для алгоритма

средних

Алгоритм

останавливается после заданного здесь числа итераций

даже если не выполняется критерий

сходимости

Это число должно быть от

до

999.

Если необходимо воспроизвести алгоритм

использовавшийся командой

QUICK CLUSTER

в старых версиях

(

до

5.0),

установите

Максимум итераций

равным

Критерий сходимости.

Задает условие прекращения итераций

Оно выражает долю

минимального расстояния между начальными центрами кластеров

поэтому должно быть

больше

но не превышать

Если значение критерия равно

например

, 0.02,

итерации

прекращаются

когда полная итерация не сдвигает ни один из центров кластеров на

расстояние

превышающее

от наименьшего расстояния между центрами любых

начальных кластеров

209

Кластерный анализ методом K средних

Использовать скользящие средние.

Позволяет запросить обновление центров кластеров

после классификации очередного наблюдения

Если этот пункт не отмечен

новые центры

кластеров вычисляются после распределения по кластерам всех наблюдений

Сохранение новых переменных в кластерном анализе

методом k-средних

Рисунок 26-3

Диалоговое окно Кластерный анализ методом K средних: Сохранить новые переменные

Вы можете сохранить следующую информацию о решении в виде новых переменных
для использования в последующем анализе

Принадлежность к кластеру.

Создается новая переменная

показывающая окончательную

принадлежность каждого наблюдения к кластеру

Значения этой новой переменной могут

меняться от

до числа кластеров

Расстояние от центра кластера.

Создается новая переменная

показывающая евклидово

расстояние между каждым наблюдением и центром кластера

куда оно было отнесено

Параметры процедуры Кластерный анализ методом

К-средних

Рисунок 26-4

Диалоговое окно Кластерный анализ методом K средних: Параметры

Статистики.

Вы можете выбрать следующие статистики

начальные центры кластеров

таблица дисперсионного анализа

а также информация о принадлежности к кластерам

для каждого наблюдения

210

Глава 26



Начальные центры кластеров.

Начальная оценка положения средних для каждого

кластера

По умолчанию

отбираются объекты

находящиеся на значительном

расстоянии друг от друга

причем столько

сколько задано кластеров

Начальные центры

кластеров используются на первом этапе грубой классификации

а затем обновляются



Таблица дисперсионного анализа.

Выводится таблица дисперсионного анализа

включающая одномерный

F-

критерий для каждой кластерной переменной

. F-

критерий

приводится для чисто ориентировочных целей

и выдаваемые вероятности не подлежат

интерпретации

Таблица не выдается

если все наблюдения попадают в один кластер



Конечный кластер для каждого наблюдения.

Для каждого наблюдения указывается

финальный кластер

к которому оно отнесено

и евклидово расстояние до центра

этого кластера

Выводится также евклидово расстояние между центрами финальных

кластеров

Пропущенные значения.

Возможными альтернативами являются

Исключать целиком

Исключать наблюдения попарно



Исключать целиком.

Наблюдения с пропущенными значениями в любой из кластерных

переменных исключаются из анализа



Исключать попарно.

Наблюдения относятся к кластерам на основании расстояний

вычисленных по всем переменным с непропущенными значениями

Команда QUICK CLUSTER: дополнительные возможности

Процедура Кластерный анализ методом

средних использует синтаксис команды

QUICK

CLUSTER

Язык синтаксиса команд также позволяет



Использовать первые

наблюдений в качестве начальных центров кластеров

тем

самым избегая прохода по данным

обычно применяемого

чтобы их оценить



Задать начальные центры кластеров напрямую

как часть командного синтаксиса



Задавать имена сохраняемых переменных

Полную информацию о синтаксисе языка команд можно найти в

Руководстве по

синтаксису

Глава

Непараметрические критерии

Непараметрические критерии требуют минимальных предположений о распределении
данных

Критерии

доступные с помощью данных диалоговых окон

можно разделить на

три общие категории в зависимости от организации данных



Одновыборочный критерий анализирует единственное поле



Критерий для связанных выборок сравнивает два или большее число полей для одного

и того же набора наблюдений



Критерий для независимых выборок анализирует единственное поле

разбитое на

группы категориями другого поля

Одновыборочные непараметрические критерии

Процедура Одновыборочные непараметрические критерии выявляет различия в единичных
полях

используя один или несколько непараметрических критериев

Непараметрические

критерии не предполагают

что данные соответствуют нормальному распределению

Рисунок 27-1

Вкладка Одновыборочные непараметрические критерии: Цель

Какова Ваша цель?

Вкладка цели позволяет быстро задать параметры для решения

различных и в то же время наиболее типичных задач



Автоматически сравнить наблюденные данные с гипотетическими

Для этой цели к

категориальным полям

имеющим только две категории

применяется биномиальный

критерий

Ко всем остальным категориальным полям применяется критерий хи

квадрат

К непрерывным полям применяется критерий Колмогорова

Смирнова

211

Смотрите также файлы

Підручник Соціологія.doc

РГР ВСТВ стац.doc

MS_Word_2008.doc

Навчальна практика з маркетингу.doc

1.doc

Файл: IBM_SPSS_Statistics_Base.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно