ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.11.2021

Просмотров: 3682

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

167

Дискриминантный анализ

Внутригрупповая ковариация.

Выводится объединенная внутригрупповая

ковариационная матрица

,

которая может отличаться от общей ковариационной

матрицы

.

Матрица вычисляется путем усреднения отдельных ковариационных матриц

для всех групп

.

Групповые ковариации.

Для каждой группы выводится отдельная ковариационная

матрица

.

Общая ковариация.

Выводится ковариационная матрица для всех наблюдений

,

как

если бы они были из одной выборки

.

Метод пошагового отбора процедуры Дискриминантный

анализ

Рисунок 21-5

Диалоговое окно Дискриминантный анализ: Шаговый отбор

Метод.

Выберите статистику

,

которая будет использоваться для введения или удаления

новых переменных

.

Возможными альтернативами являются лямбда Уилкса

,

необъясненная

дисперсия

,

расстояние Махаланобиса

,

наименьшее

F

отношение и

V

Рао

.

Выбрав

V

Рао

,

можно задать минимальное приращение

V

,

необходимое для включения переменной

.

Лямбда Уилкса.

Метод отбора переменных в шаговом дискриминантном анализе

,

отбирающий переменные для ввода в уравнение на основании того

,

насколько они

уменьшают значение

"

лямбда

"

Уилкса

.

На каждом шаге вводится переменная

,

минимизирующая это значение

.

Необъясненная дисперсия.

На каждом шаге вводится переменная

,

минимизирующая

сумму необъясненной изменчивости между группами

.

расстояние Махаланобиса.

Мера того

,

насколько значения наблюдений для

независимых переменных отклоняются от среднего по всем наблюдениям

.

Большое

расстояние Махаланобиса означает

,

что наблюдение содержит экстремальные значения

в одной или более независимых переменных

.


background image

168

Глава 21

Наименьшее F отношение.

Метод отбора переменных в шаговом анализе

,

основанный

на максимизации

F-

отношения

,

вычисленного по расстоянию Махаланобиса между

группами

.

V Рао.

Мера различий между групповыми средними

.

Также называется следом

Лоули

-

Хотеллинга

.

На каждом шаге вводится та переменная

,

которая максимизирует

прирост индекса

V

Рао

.

Выбрав этот параметр

,

введите минимальное значение

,

которое

должна иметь переменная

,

чтобы быть включенной в анализ

.

Критерии.

Возможными альтернативами являются

Использовать F значение

и

Использовать

вероятность F

.

Введите значения для включения и удаления переменных

.

Использовать F-значение.

Переменная вводится в модель

,

если ее

F-

значение

превышает заданное значение включения

,

и исключается

,

если ее

F-

значение меньше

значения исключения

.

Значение включения должно превосходить значение исключения

,

оба должны быть положительными

.

Если необходимо ввести в модель больше

переменных

,

снизьте порог включения

.

Чтобы исключить из модели большее число

переменных

,

увеличьте порог исключения

.

Использовать вероятность F.

Переменная вводится в модель

,

если наблюдаемый

уровень значимости ее

F-

значения меньше заданного порога включения

,

и исключается

,

если этот уровень значимости больше порога исключения

.

Порог включения должен

быть меньше порога исключения

,

они оба должны быть положительными

.

Если

необходимо включить в модель больше переменных

,

увеличьте порог включения

.

Чтобы исключить из модели большее число переменных

,

снизьте порог исключения

.

Вывести.

Отчет о шагах

выводит статистики для всех переменных после каждого шага

;

F

для попарных расстояний

выводит матрицу попарных

F

отношений для каждой пары групп

.

Дискриминантный анализ: Классификация

Рисунок 21-6

Диалоговое окно Классификация дискриминантного анализа

Априорные вероятности.

Эта функция определяет настройку классификационных

коэффициентов в соответствии с априорным знанием принадлежности к группе

.


background image

169

Дискриминантный анализ

Все группы равны.

Предполагаются равные вероятности для всех групп

,

что не

оказывает влияния на коэффициенты

.

Вычислить по размерам групп.

Априорные вероятности принадлежности к группе

зависят от размера наблюдаемой группы в выборке

.

Например

,

если

50%

наблюдений

из области анализа попадает в первую группу

, 25%

во вторую и

25%

в третью

,

классификационные коэффициенты настраиваются для увеличения правдоподобия
принадлежности к первой группе по отношению ко второй и третьей

.

Вывести.

Доступные параметры

:

результаты по наблюдениям

(

Поточечные результаты

),

итоговая таблица

,

классификация методом скользящего контроля

.

Поточечные результаты.

Коды для фактической группы

,

предсказанной группы

,

апостериорные вероятности и значения дискриминантной функции выводятся для
каждого наблюдения

.

Итоговая таблица.

Числа наблюдений

,

правильно и неправильно отнесенных к каждой

из групп в дискриминантном анализе

.

Это иногда называют матрицей перекрестной

классификации

.

Скользящий контроль.

Каждое наблюдение при анализе классифицируется с помощью

функции

,

полученной по всем остальным наблюдениям

,

кроме данного

.

Этот метод

также известен как

"U-

метод

".

Заменить пропущенные значения средним.

Выберите этот пункт

,

чтобы заменить

средним независимой переменной пропущенные значения только на этапе классификации

.

Ковариационная матрица.

Вы можете выбрать один из двух способов классификации

наблюдений

либо по внутригрупповой ковариационной матрице

,

либо по

ковариационным матрицам для отдельных групп

.

Внутригрупповая.

Для классификации наблюдений используется объединенная

внутригрупповая ковариационная матрица

.

Для отдельных групп.

Для классификации используются ковариационные матрицы для

отдельных групп

.

Так как классификация производится на основе дискриминантных

функций

,

а не на основе исходных переменных

,

выбор этого параметра не всегда

равноценен квадратичной дискриминации

.

Графики.

Графические возможности

:

график для объединенных групп

,

графики для

отдельных групп и территориальная карта

.

Объединенные группы.

Строится диаграмма рассеяния значений первых двух

дискриминантных функций для наблюдений из всех групп

.

Если есть только одна

дискриминантная функция

,

вместо диаграммы рассеяния выводится гистограмма

.

Для отдельных групп.

Диаграмма рассеяния значений первых двух дискриминантных

функций строится для каждой группы в отдельности

.

Если есть только одна

дискриминантная функция

,

вместо диаграммы рассеяния выводится гистограмма

.

Территориальная карта.

График

,

на который нанесены границы

,

позволяющие

отнести наблюдение к группе на основании значений функции

.

Числа соответствуют

группам

,

по которым распределяют наблюдения

.

Среднее каждой группы обозначено

звездочкой внутри границ этой группы

.

Если есть только одна дискриминантная

функция

,

диаграмма не выводится

.


background image

170

Глава 21

Дискриминантный анализ: Сохранить

Рисунок 21-7

Диалоговое окно Дискриминантный анализ: Сохранить

Вы можете добавить к активному файлу данных новые переменные

.

Можно сохранить

:

предсказанную принадлежность к группе

(

единственная переменная

),

дискриминантные

баллы

(

одна переменная для каждой дискриминантной функции в решении

),

вероятности

принадлежности к группе при данных дискриминантных баллах

(

одна переменная на

каждую группу

).

Также Вы можете экспортировать информацию о модели в заданный файл в формате

XML (PMML).

Этот файл модели можно использовать для применения информации о

модели к другим файлам данных с целью скоринга

.

Команда DISCRIMINANT: дополнительные возможности

Язык синтаксиса команд также позволяет

:

Выполнить дискриминантный анализ несколько раз

(

с помощью одной команды

),

а также управлять порядком

,

в котором добавляются переменные

(

с помощью

подкоманды

ANALYSIS

).

Задать априорные вероятности для классификации

(

с помощью подкоманды

PRIORS

).

Вывести повернутые матрицу коэффициентов дискриминантных функций и

структурную матрицу

(

с помощью подкоманды

ROTATE

).

Ограничить число формируемых дискриминантных функций

(

с помощью подкоманды

FUNCTIONS

).

Ограничить классификацию наблюдениями

,

которые отобраны

(

не отобраны

)

для

анализа

(

с помощью подкоманды

SELECT

).

Считать и анализировать корреляционную матрицу

(

с помощью подкоманды

MATRIX

).

Сохранить корреляционную матрицу для дальнейшего анализа

(

с помощью подкоманды

MATRIX

).

Обратитесь к

Command Syntax Reference

за полной информацией о синтаксисе языка команд

.


background image

Глава

22

Факторный анализ

Целью факторного анализа является выявление скрытых переменных или

факторов

,

объясняющих структуру корреляций внутри набора наблюденных переменных

.

Факторный

анализ часто используется для снижения размерности данных

,

чтобы найти небольшое

число факторов

,

которые объясняют большую часть дисперсии

,

наблюденной для

значительно большего числа явных переменных

.

Факторный анализ может также

использоваться для формирования гипотез относительно механизмов причинных связей
или с целью проверки переменных перед дальнейшим анализом

(

например

,

чтобы выявить

коллинеарность перед проведением линейного регрессионного анализа

).

Рассматриваемая процедура факторного анализа обеспечивает большую гибкость

:

Доступны семь методов выделения факторов

.

Доступны пять методов вращения

,

в том числе прямой облимин и промакс для не

ортогональных вращений

.

Доступны три метода вычисления значений факторов

,

которые можно сохранить в виде

переменных для дальнейшего анализа

.

Пример.

Какие внутренние побуждения определяют ответы людей на вопросы

обследования

,

касающегося политики

?

Исследование корреляций между вопросами

обследования обнаруживает значительные пересечения в подгруппах вопросов

вопросы

о налогах имеют тенденцию коррелировать между собой

,

вопросы касающиеся обороны

также коррелируют между собой и т

.

д

.

С помощью факторного анализа можно выявить

некоторое число основополагающих факторов и определить

,

что эти факторы представляют

собой концептуально

.

Помимо этого

,

для каждого респондента можно вычислить значения

факторов

,

которые можно использовать в последующем анализе

.

Например

,

основываясь

на значениях факторов

,

Вы можете построить модель логистической регрессии для

прогнозирования поведения людей на выборах

.

Статистики.

Для каждой переменной

:

число наблюдений без пропущенных значений

,

среднее значение и стандартное отклонение

.

Для каждого случая применения факторного

анализа

:

корреляционная матрица переменных

,

включая уровни значимости

,

определитель

и обратную матрицу

;

воспроизведенная корреляционная матрица

,

включая антиобраз

;

начальное решение

(

общности

,

собственные числа и процент объясненной дисперсии

);

показатель выборочной адекватности Кайзера

-

Мейера

-

Олкина и критерий сферичности

Бартлетта

;

неповернутое решение

,

включая факторные нагрузки

,

общности и собственные

числа

;

повернутое решение

,

включая матрицу факторного отображения после вращения

и матрицу преобразования факторов

.

Для косоугольных вращений

:

матрицы факторного

отображения и факторной структуры после вращения

;

матрица коэффициентов значений

факторов и матрица ковариаций факторов

.

Графики

:

график типа

осыпь

собственных

чисел

,

диаграмма нагрузок первых двух или трех факторов

.

Данные.

Переменные должны быть количественными

,

измеренными в

интервальной

шкале или шкале

отношений

.

Категориальные данные

(

такие как исповедуемая религия

или место рождения

)

не подходят для факторного анализа

.

Данные

,

для которых

© Copyright IBM Corporation 1989, 2011.

171