ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3688

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

177

Факторный анализ

выводятся следующие матрицы

:

факторных нагрузок после вращения

,

структурная

и корреляций факторов

.

График факторных нагрузок.

Трехмерный график факторных нагрузок для трех первых

факторов

.

Для двухфакторного решения выдается двумерный график

.

Если выделен

только один фактор

,

график не выдается

.

Если задано вращение

,

график выдается

для повернутого решения

.

Максимум итераций до сходимости.

Позволяет задать максимальное число шагов

,

которое

может использовать алгоритм для выполнения вращения

.

Значения факторов в процедуре факторного анализа

Рисунок 22-6

Диалоговое окно Факторный анализ: Значения факторов

Сохранить как переменные.

Создает по одной новой переменной для каждого фактора в

окончательном решении

.

Метод.

Альтернативные методы вычисления факторных значений

Бартлетта и

Андерсона

-

Рубина

.

Регрессионный метод.

Метод оценивания коэффициентов факторных значений

.

Получающиеся оценки факторных значений имеют среднее

,

равное нулю

,

и дисперсию

,

равную квадрату множественного коэффициента корреляции между оцененными
значениями фактора и истинными

.

Эти факторные значения могут быть коррелированы

,

даже если факторы ортогональны

.

Значения Бартлетта.

Метод оценивания коэффициентов факторных значений

.

Получаемые значения имеют среднее

,

равное

0.

Минимизируется сумма квадратов

характерных факторов по всем переменным

.

Метод Андерсона-Рубина.

Метод оценивания коэффициентов факторных значений

;

модификация метода Бартлетта

,

гарантирующая ортогональность оцененных факторов

.

Получаемые значения некоррелированы

,

имеют среднее

0

и стандартное отклонение

1.

Вывести матрицу коэффициентов значений факторов.

Выводит коэффициенты

,

на

которые умножаются переменные для получения значений факторов

.

Выводятся также

корреляции между факторными значениями

.


background image

178

Глава 22

Параметры процедуры Факторный анализ

Рисунок 22-7

Диалоговое окно Факторный анализ: Параметры

Пропущенные значения.

Позволяет задать режим обработки пропущенных значений

.

Возможными альтернативами для наблюдений с пропущенными значениями являются
исключение

целиком

,

исключение

попарно

или замена пропущенного значения средним

.

Формат вывода коэффициентов.

Позволяет задать режим вывода матриц

.

Вы можете

отсортировать коэффициенты по величине и не выводить коэффициенты

,

которые по

модулю меньше заданного значения

.

Команда FACTOR: дополнительные возможности

Язык синтаксиса команд также позволяет

:

Задать критерии сходимости итераций для выделения факторов и вращения

.

Задать отдельные графики вращения факторов

.

Задать

,

сколько значений факторов нужно сохранять

.

Задать диагональные значения для метода факторизации главной оси

.

Сохранить на диске корреляционные матрицы и матрицы факторных нагрузок для

дальнейшего анализа

.

Считать и анализировать корреляционные матрицы и матрицы факторных нагрузок

.

Полную информацию о синтаксисе языка команд можно найти в

Руководстве по

синтаксису

.


background image

Глава

23

Выбор процедуры кластеризации

Кластерный анализ можно выполнить

,

используя процедуры двухэтапного

,

иерархического

кластерного анализа или метода

k-

средних

.

Каждая процедура использует разные

алгоритмы для формирования кластеров

,

и каждая имеет параметры

,

недоступные для

других

.

Двухэтапный кластерный анализ.

Для многих приложений процедура Двухэтапный

кластерный анализ окажется подходящим выбором

.

Она дает следующие уникальные

возможности

:

Автоматический выбор наилучшего числа кластеров и мер для выбора моделей

кластеров

.

Модели кластеров можно создавать одновременно на основе и категориальных

,

и

непрерывных переменных

.

Сохранение модели кластеров во внешнем

XML

файле для дальнейшего считывания

этого файла и обновления модели кластеров на основе новых данных

.

Кроме того

,

процедура Двухэтапный кластерный анализ может анализировать большие

файлы данных

.

Иерархический кластерный анализ.

Применение процедуры Иерархический кластерный

анализ огранивается небольшими файлами данных

(

сотни объектов для кластеризации

),

однако она обладает следующими уникальными возможностями

:

Способность разбивать на кластеры как наблюдения

,

так и переменные

.

Способность формировать диапазон возможных решений и сохранять принадлежность

к кластерам для каждого из этих решений

.

Наличие нескольких методов формирования кластеров

,

преобразования переменных и

измерения расстояний между кластерами

.

Процедура Иерархический кластерный анализ может анализировать интервальные

(

непрерывные

),

двоичные переменные или частоты

,

если все переменные имеют один и

тот же тип

.

Кластерный анализ методом k-средних.

Применение процедуры Кластерный анализ

методом

k-

средних ограничивается непрерывными данными и требует задания числа

классов заранее

,

но она имеет следующие уникальные возможности

:

Способность сохранять расстояния от центра кластера до каждого объекта

.

Способность считывать начальные центры кластеров из внешнего файла

IBM® SPSS®

Statistics

и сохранять в нем окончательные центры кластеров

.

Кроме того

,

процедура Кластерный анализ методом

k-

средних может анализировать

большие файлы данных

.

© Copyright IBM Corporation 1989, 2011.

179


background image

Глава

24

Двухэтапный кластерный анализ

Процедура Двухэтапный кластерный анализ представляет собой средство разведочного
анализа для выявления естественного разбиения набора данных на группы

(

или кластеры

),

которое без ее применения трудно обнаружить

.

Алгоритм

,

используемый этой процедурой

,

имеет несколько привлекательных особенностей

,

которые отличают его от традиционных

методов кластерного анализа

:

Работа с категориальными и непрерывными переменными.

Предполагая

независимость переменных

,

можно считать

,

что категориальные и непрерывные

переменные имеют совместное мультиномиально

-

нормальное распределение

.

Автоматический выбор числа кластеров.

Сравнивая значения критерия отбора модели

для различных кластерных решений

,

процедура может автоматически определить

оптимальное число кластеров

.

Масштабируемость.

Формируя дерево свойств кластеров

(

СК

),

которое является

компактным представлением информации о наблюдениях

,

двухэтапный алгоритм

позволяет анализировать большие файлы данных

.

Пример.

Компании производства потребительских товаров и розничной торговли регулярно

применяют методы кластерного анализа к данным

,

описывающим покупательские

привычки их клиентов

,

а также их пол

,

возраст

,

уровень доходов и т

.

д

.

Эти компании

настраивают стратегии маркетинга и развития производства на каждую из групп
потребителей

,

чтобы увеличить продажи и повысить приверженность потребителей маркам

товаров

.

© Copyright IBM Corporation 1989, 2011.

180


background image

181

Двухэтапный кластерный анализ

Рисунок 24-1

Диалоговое окно Двухэтапный кластерный анализ

Мера расстояния.

Выбор в этой группе определяет

,

как вычисляется сходство между

двумя кластерами

.

Log-правдоподобия.

Мера правдоподобия приписывает переменным вероятностное

распределение

.

Предполагается

,

что непрерывные переменные имеют нормальное

распределение

,

а категориальные переменные

-

мультиномиальное

.

Все переменные

предполагаются независимыми

.

Евклидова.

Евклидова мера является расстоянием

по прямой линии

между двумя

кластерами

.

Она может быть использована

,

только когда все переменные являются

непрерывными

.

Число кластеров.

Выбор в этой группе позволяет задать

,

как будет определяться число

классов

.

Определять автоматически.

Процедура автоматически определит

наилучшее

число классов

,

используя критерий

,

заданный в группе Критерий кластеризации

.

Дополнительно вы можете ввести положительное целое число

,

задающее максимальное

число кластеров

,

которое должна рассмотреть процедура

.

Задать.

Позволяет зафиксировать число кластеров в решении

.

Введите целое

положительное число

.