Файл: IBM_SPSS_Statistics_Base.pdf

Скачать файл (5,12Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3691

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

182

Глава 24

Количество непрерывных переменных.

Эта группа дает сводную информацию об

установках

касающихся стандартизации непрерывных переменных

заданных в диалоговом

окне Параметры

Дополнительную информацию см

данная тема Параметры процедуры

Двухэтапный кластерный анализ на стр

. 183.

Критерий кластеризации.

Выбор в этой группе задает способ

которым автоматический

алгоритм кластеризации определяет число кластеров

Можно задать либо Байесовский

информационный критерий

(BIC),

либо Информационный критерий Акаике

(AIC).

Данные.

Данная процедура работает как с непрерывными

так и с категориальными

переменными

Наблюдения представляют собой объекты кластеризации

а переменные

являются атрибутами

на которых основывается кластеризация

Порядок наблюдений.

Обратите внимание на то

что дерево свойств кластеров и

окончательное решение могут зависеть от порядка наблюдений

Чтобы минимизировать

эффект порядка наблюдений

расположите их в случайном порядке

Возможно

что вы

захотите получить несколько различных решений с наблюдениями

упорядоченными

случайным образом

чтобы проверить стабильность данного решения

В ситуациях

когда

это трудно сделать в силу чрезвычайно больших размеров файлов

можно в качестве

альтернативы несколько раз выполнить процедуру с выборкой наблюдений

отсортировывая

ее в случайном порядке

Предположения.

Мера расстояния

основанная на правдоподобии

предполагает

что

переменные в кластерной модели являются независимыми

Кроме того предполагается

что каждая непрерывная переменная имеет нормальное

(

гауссово

)

распределение

каждая категориальная переменная

мультиномиальное распределение

Эмпирические

исследования показывают

что эта процедура вполне устойчива к нарушениям

предположений как о независимости

так и о распределениях

однако следует проверить

насколько эти предположения выполняются

Для проверки независимости двух непрерывных переменных воспользуйтесь процедурой

Парные корреляции

Для проверки независимости двух категориальных переменных

воспользуйтесь процедурой

Таблицы сопряженности

Для проверки независимости между

непрерывной переменной и категориальной переменной воспользуйтесь процедурой

Средние

Для проверки нормальности непрерывной переменной воспользуйтесь

процедурой

Исследовать

Для проверки того

что категориальная переменная имеет

заданное мультиномиальное распределение

воспользуйтесь процедурой

Критерий

хи

квадрат

Как запустить процедуру Двухэтапный кластерный анализ

Выберите в меню

Анализ > Классификация > Двухэтапный кластерный анализ...

Выберите одну или несколько категориальных или непрерывных переменных

Дополнительно Вы можете



Установить критерии

по которым формируются кластеры



Выбрать установки для обработки шумов

выделения памяти

стандартизации

переменных и ввода кластерной модели

183

Двухэтапный кластерный анализ



Запрос вывода средства просмотра моделей



Сохранить результаты построения модели в рабочем файле или внешнем

XML

файле

Параметры процедуры Двухэтапный кластерный анализ

Рисунок 24-2

Диалоговое окно Параметры двухэтапного кластерного анализа

Обработка выбросов.

Эта группа позволяет обрабатывать выбросы специальным образом

во время кластеризации

если заполняется дерево свойств кластеров

(

СК

Дерево свойств

кластеров

(

СК

)

является полным

если оно не может больше принимать наблюдения в

какой

либо узел и никакой узел не может быть разделен



Если вы задали обработку шумов и дерево свойств

(

СК

)

кластеров заполняется

то оно

будет перестроено после того

как наблюдения в разреженных листьях будут помещены

в лист шума

Лист считается разреженным

если он содержит меньше наблюдений

чем

заданный процент от максимального размера листа

После того как дерево перестроено

выбросы будут помещены в дерево свойств кластеров

(

СК

если это возможно

противном случае выбросы будут отброшены



Если вы не выберете обработку шумов и дерево свойств кластеров

(

СК

)

заполняется

то

оно будет перестроено с использованием большего порога изменения расстояния

После

окончательного разбиения на кластеры

значения

которые не могут быть приписаны к

184

Глава 24

кластерам

помечаются как выбросы

Кластеру выбросов дается идентификационный

номер

–1,

и он не включается в подсчет числа кластеров

Выделение памяти.

Эта группа позволяет задать максимальное количество памяти в

мегабайтах

(MB),

которую должен использовать алгоритм кластеризации

Если процедура

превысит этот максимум

то она использует диск для хранения информации

которая не

умещается в памяти

Задайте число

большее или равное



Проконсультируйтесь с вашим системным администратором по поводу максимального

значения

которое может быть задано для Вашей системы



Алгоритм может не найти подходящее или желаемое число кластеров

если это значение

слишком мало

Стандартизация переменных.

Алгоритм кластеризации работает со стандартизованными

непрерывными переменными

Все непрерывные переменные

которые не стандартизованы

должны быть оставлены в списке Подлежат стандартизации

Чтобы несколько сэкономить

время и снизить вычислительные затраты

можно поместить все непрерывные переменные

которые уже стандартизованы

в список Считаются стандартизованными

Дополнительные параметры

Критерии настройки дерева свойств кластеров (СК).

Следующие установки алгоритма

кластеризации относятся непосредственно к к дереву свойств кластеров

(

СК

и их следует

изменять с осторожностью



Начальный порог изменения расстояния.

Это начальный порог

используемый для

построения дерева СК

Если включение данного наблюдения в лист дерева СК даст

плотность

меньшую

чем порог

то лист не разделяется

Если плотность превосходит

порог

то лист разделяется



Максимальное число ветвей (на узел).

Максимальное число узлов

являющихся

непосредственными потомками

которое может иметь узел



Максимальная глубина дерева.

Максимальное число уровней

которое может иметь

дерево СК



Максимально возможное число узлов.

Это указывает максимальное число узлов

в дереве СК

которые могут быть созданы процедурой

на основе функции

(

d+1

–

1) /

– 1),

где

есть максимальное число ветвей

есть максимальная глубина

дерева

Отдавайте себе отчет в том

что чрезмерно большое дерево СК может вызвать

перерасход системных ресурсов и неблагоприятно повлиять на эффективность
процедуры

Каждый узел требует

как минимум

, 16

байт

Обновление модели кластеров.

Эта группа позволяет импортировать и обновлять модель

кластеров

полученную в результате проведенного ранее анализа

Входной файл содержит

дерево СК в формате

XML.

Позже эта модель будет обновлена с помощью данных

содержащихся в активном файле

В главном диалоговом окне имена переменных должны

быть выбраны в том же порядке

в котором они были заданы во время проведенного ранее

анализа

Файл

XML

остается неизменным до тех пор

пока вы не сохраните информацию о

новой модели под тем же именем

Дополнительную информацию см

данная тема Вывод

процедуры Двухэтапный кластерный анализ на стр

. 185.

185

Двухэтапный кластерный анализ

Если задано обновление модели кластеров

используются те параметры

относящиеся к

формированию дерева СК

которые были заданы для исходной модели

Более конкретно

используются мера расстояния

выделение памяти и установки в критериях настройки

дерева СК для сохраненной модели

а любые установки для этих параметров

заданные в

диалоговых окнах

игнорируются

Примечание

При выполнении обновления модели кластеров процедура предполагает

что

никакие из выбранных в активном наборе данных наблюдений

не были использованы для

создания исходной модели кластеров

Процедура также предполагает

что наблюдения

используемые при обновлении модели

извлечены из той же генеральной совокупности

что и наблюдения

использованные при создании исходной модели

;

средние

значения и дисперсии непрерывных переменных и уровни категориальных переменных
предполагаются одинаковыми по обоим наборам наблюдений

Если

“

новый

”

“

старый

”

наборы наблюдений извлечены из неоднородных генеральных совокупностей

то для

получения наилучших результатов следует запустить процедуру Двухэтапный кластерный
анализ для объединенного набора наблюдений

Вывод процедуры Двухэтапный кластерный анализ

Рисунок 24-3

Диалоговое окно Вывод двухэтапного кластерного анализа

Средство просмотра моделей.

Эта группа предоставляет параметры для вывода таблиц

результатов кластеризации

186

Глава 24



Диаграммы и таблицы.

Отображается вывод

относящийся к модели

включая таблицы

и диаграммы

При просмотре таблиц отображаются

водная таблица по модели и сетка

кластеров по функциям

Графический вывод в виде модели включает диаграмму

качества кластера

размеры кластеров

диаграмму важности переменных

сетку

сравнения кластеров и информацию о ячейке



Поля нормирования.

Здесь вычисляются данные кластера для переменных

которые

не использовались в создании кластера

Поля нормирования могут отображаться

вместе с входными функциями

если их выбрать в диалоговом окне Вывод

Поля с

пропущенными значениями игнорируются

Рабочий файл данных.

Эта группа позволяет сохранить переменные в активном наборе

данных



Создать переменную принадлежности к кластерам.

Эта переменная содержит

идентификационный номер кластера для каждого наблюдения

Эта переменная имеет

имя

tsc_n

где

является положительным целым числом

обозначающим порядковый

номер операции сохранения активного набора данных

выполненной этой процедурой в

течение данного сеанса работы

Файлы XML.

Окончательная модель кластеров и дерево СК являются двумя типами

выходных файлов

которые можно экспортировать в формате

XML.



Экспортировать окончательную модель.

Окончательная модель кластеров

экспортируется в заданном файле в формате

XML (PMML).

Этот файл модели можно

использовать для применения информации о модели к другим файлам данных с целью
скоринга



Экспортировать дерево свойств кластеров (СК).

Этот параметр позволяет сохранить

текущее состояние дерева кластеров и обновить его позже

используя новые данные

Средство просмотра кластеров

Кластерные модели обычно используются для выявления групп

(

или кластеров

)

похожих

записей путем исследования переменных

в которых сходство членов одной группы велико

а сходство представителей разных групп мало

Полученные результаты можно использовать

для идентификации взаимосвязей

которые другим путем было бы трудно обнаружить

Например

с помощью кластерного анализа предпочтений покупателей

уровня доходов и

покупательских привычек можно идентифицировать типы клиентов

которые с большей

вероятностью откликнуться на проводимую маркетинговую кампанию

Имеются два подхода к интерпретации выведенных результатов кластерного анализа



Исследовать кластеры с целью выявления уникальных особенностей отдельных

кластеров

Содержит ли один кластер всех заемщиков с высоким доходом

Содержит

ли данный кластер больше записей

чем остальные



Исследовать поля по кластерам

чтобы определить

как распределяются значения среди

кластеров

Определяет ли уровень образования конкретного лица принадлежность к

кластеру

Определяет ли высокий кредитный балл принадлежность к тому или иному

кластеру

Смотрите также файлы

Підручник Соціологія.doc

РГР ВСТВ стац.doc

MS_Word_2008.doc

Навчальна практика з маркетингу.doc

1.doc

Файл: IBM_SPSS_Statistics_Base.pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно