ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.11.2021
Просмотров: 3682
Скачиваний: 4
167
Дискриминантный анализ
Внутригрупповая ковариация.
Выводится объединенная внутригрупповая
ковариационная матрица
,
которая может отличаться от общей ковариационной
матрицы
.
Матрица вычисляется путем усреднения отдельных ковариационных матриц
для всех групп
.
Групповые ковариации.
Для каждой группы выводится отдельная ковариационная
матрица
.
Общая ковариация.
Выводится ковариационная матрица для всех наблюдений
,
как
если бы они были из одной выборки
.
Метод пошагового отбора процедуры Дискриминантный
анализ
Рисунок 21-5
Диалоговое окно Дискриминантный анализ: Шаговый отбор
Метод.
Выберите статистику
,
которая будет использоваться для введения или удаления
новых переменных
.
Возможными альтернативами являются лямбда Уилкса
,
необъясненная
дисперсия
,
расстояние Махаланобиса
,
наименьшее
F
отношение и
V
Рао
.
Выбрав
V
Рао
,
можно задать минимальное приращение
V
,
необходимое для включения переменной
.
Лямбда Уилкса.
Метод отбора переменных в шаговом дискриминантном анализе
,
отбирающий переменные для ввода в уравнение на основании того
,
насколько они
уменьшают значение
"
лямбда
"
Уилкса
.
На каждом шаге вводится переменная
,
минимизирующая это значение
.
Необъясненная дисперсия.
На каждом шаге вводится переменная
,
минимизирующая
сумму необъясненной изменчивости между группами
.
расстояние Махаланобиса.
Мера того
,
насколько значения наблюдений для
независимых переменных отклоняются от среднего по всем наблюдениям
.
Большое
расстояние Махаланобиса означает
,
что наблюдение содержит экстремальные значения
в одной или более независимых переменных
.
168
Глава 21
Наименьшее F отношение.
Метод отбора переменных в шаговом анализе
,
основанный
на максимизации
F-
отношения
,
вычисленного по расстоянию Махаланобиса между
группами
.
V Рао.
Мера различий между групповыми средними
.
Также называется следом
Лоули
-
Хотеллинга
.
На каждом шаге вводится та переменная
,
которая максимизирует
прирост индекса
V
Рао
.
Выбрав этот параметр
,
введите минимальное значение
,
которое
должна иметь переменная
,
чтобы быть включенной в анализ
.
Критерии.
Возможными альтернативами являются
Использовать F значение
и
Использовать
вероятность F
.
Введите значения для включения и удаления переменных
.
Использовать F-значение.
Переменная вводится в модель
,
если ее
F-
значение
превышает заданное значение включения
,
и исключается
,
если ее
F-
значение меньше
значения исключения
.
Значение включения должно превосходить значение исключения
,
оба должны быть положительными
.
Если необходимо ввести в модель больше
переменных
,
снизьте порог включения
.
Чтобы исключить из модели большее число
переменных
,
увеличьте порог исключения
.
Использовать вероятность F.
Переменная вводится в модель
,
если наблюдаемый
уровень значимости ее
F-
значения меньше заданного порога включения
,
и исключается
,
если этот уровень значимости больше порога исключения
.
Порог включения должен
быть меньше порога исключения
,
они оба должны быть положительными
.
Если
необходимо включить в модель больше переменных
,
увеличьте порог включения
.
Чтобы исключить из модели большее число переменных
,
снизьте порог исключения
.
Вывести.
Отчет о шагах
выводит статистики для всех переменных после каждого шага
;
F
для попарных расстояний
выводит матрицу попарных
F
отношений для каждой пары групп
.
Дискриминантный анализ: Классификация
Рисунок 21-6
Диалоговое окно Классификация дискриминантного анализа
Априорные вероятности.
Эта функция определяет настройку классификационных
коэффициентов в соответствии с априорным знанием принадлежности к группе
.
169
Дискриминантный анализ
Все группы равны.
Предполагаются равные вероятности для всех групп
,
что не
оказывает влияния на коэффициенты
.
Вычислить по размерам групп.
Априорные вероятности принадлежности к группе
зависят от размера наблюдаемой группы в выборке
.
Например
,
если
50%
наблюдений
из области анализа попадает в первую группу
, 25%
во вторую и
25%
в третью
,
классификационные коэффициенты настраиваются для увеличения правдоподобия
принадлежности к первой группе по отношению ко второй и третьей
.
Вывести.
Доступные параметры
:
результаты по наблюдениям
(
Поточечные результаты
),
итоговая таблица
,
классификация методом скользящего контроля
.
Поточечные результаты.
Коды для фактической группы
,
предсказанной группы
,
апостериорные вероятности и значения дискриминантной функции выводятся для
каждого наблюдения
.
Итоговая таблица.
Числа наблюдений
,
правильно и неправильно отнесенных к каждой
из групп в дискриминантном анализе
.
Это иногда называют матрицей перекрестной
классификации
.
Скользящий контроль.
Каждое наблюдение при анализе классифицируется с помощью
функции
,
полученной по всем остальным наблюдениям
,
кроме данного
.
Этот метод
также известен как
"U-
метод
".
Заменить пропущенные значения средним.
Выберите этот пункт
,
чтобы заменить
средним независимой переменной пропущенные значения только на этапе классификации
.
Ковариационная матрица.
Вы можете выбрать один из двух способов классификации
наблюдений
—
либо по внутригрупповой ковариационной матрице
,
либо по
ковариационным матрицам для отдельных групп
.
Внутригрупповая.
Для классификации наблюдений используется объединенная
внутригрупповая ковариационная матрица
.
Для отдельных групп.
Для классификации используются ковариационные матрицы для
отдельных групп
.
Так как классификация производится на основе дискриминантных
функций
,
а не на основе исходных переменных
,
выбор этого параметра не всегда
равноценен квадратичной дискриминации
.
Графики.
Графические возможности
:
график для объединенных групп
,
графики для
отдельных групп и территориальная карта
.
Объединенные группы.
Строится диаграмма рассеяния значений первых двух
дискриминантных функций для наблюдений из всех групп
.
Если есть только одна
дискриминантная функция
,
вместо диаграммы рассеяния выводится гистограмма
.
Для отдельных групп.
Диаграмма рассеяния значений первых двух дискриминантных
функций строится для каждой группы в отдельности
.
Если есть только одна
дискриминантная функция
,
вместо диаграммы рассеяния выводится гистограмма
.
Территориальная карта.
График
,
на который нанесены границы
,
позволяющие
отнести наблюдение к группе на основании значений функции
.
Числа соответствуют
группам
,
по которым распределяют наблюдения
.
Среднее каждой группы обозначено
звездочкой внутри границ этой группы
.
Если есть только одна дискриминантная
функция
,
диаграмма не выводится
.
170
Глава 21
Дискриминантный анализ: Сохранить
Рисунок 21-7
Диалоговое окно Дискриминантный анализ: Сохранить
Вы можете добавить к активному файлу данных новые переменные
.
Можно сохранить
:
предсказанную принадлежность к группе
(
единственная переменная
),
дискриминантные
баллы
(
одна переменная для каждой дискриминантной функции в решении
),
вероятности
принадлежности к группе при данных дискриминантных баллах
(
одна переменная на
каждую группу
).
Также Вы можете экспортировать информацию о модели в заданный файл в формате
XML (PMML).
Этот файл модели можно использовать для применения информации о
модели к другим файлам данных с целью скоринга
.
Команда DISCRIMINANT: дополнительные возможности
Язык синтаксиса команд также позволяет
:
Выполнить дискриминантный анализ несколько раз
(
с помощью одной команды
),
а также управлять порядком
,
в котором добавляются переменные
(
с помощью
подкоманды
ANALYSIS
).
Задать априорные вероятности для классификации
(
с помощью подкоманды
PRIORS
).
Вывести повернутые матрицу коэффициентов дискриминантных функций и
структурную матрицу
(
с помощью подкоманды
ROTATE
).
Ограничить число формируемых дискриминантных функций
(
с помощью подкоманды
FUNCTIONS
).
Ограничить классификацию наблюдениями
,
которые отобраны
(
не отобраны
)
для
анализа
(
с помощью подкоманды
SELECT
).
Считать и анализировать корреляционную матрицу
(
с помощью подкоманды
MATRIX
).
Сохранить корреляционную матрицу для дальнейшего анализа
(
с помощью подкоманды
MATRIX
).
Обратитесь к
Command Syntax Reference
за полной информацией о синтаксисе языка команд
.
Глава
22
Факторный анализ
Целью факторного анализа является выявление скрытых переменных или
факторов
,
объясняющих структуру корреляций внутри набора наблюденных переменных
.
Факторный
анализ часто используется для снижения размерности данных
,
чтобы найти небольшое
число факторов
,
которые объясняют большую часть дисперсии
,
наблюденной для
значительно большего числа явных переменных
.
Факторный анализ может также
использоваться для формирования гипотез относительно механизмов причинных связей
или с целью проверки переменных перед дальнейшим анализом
(
например
,
чтобы выявить
коллинеарность перед проведением линейного регрессионного анализа
).
Рассматриваемая процедура факторного анализа обеспечивает большую гибкость
:
Доступны семь методов выделения факторов
.
Доступны пять методов вращения
,
в том числе прямой облимин и промакс для не
ортогональных вращений
.
Доступны три метода вычисления значений факторов
,
которые можно сохранить в виде
переменных для дальнейшего анализа
.
Пример.
Какие внутренние побуждения определяют ответы людей на вопросы
обследования
,
касающегося политики
?
Исследование корреляций между вопросами
обследования обнаруживает значительные пересечения в подгруппах вопросов
—
вопросы
о налогах имеют тенденцию коррелировать между собой
,
вопросы касающиеся обороны
также коррелируют между собой и т
.
д
.
С помощью факторного анализа можно выявить
некоторое число основополагающих факторов и определить
,
что эти факторы представляют
собой концептуально
.
Помимо этого
,
для каждого респондента можно вычислить значения
факторов
,
которые можно использовать в последующем анализе
.
Например
,
основываясь
на значениях факторов
,
Вы можете построить модель логистической регрессии для
прогнозирования поведения людей на выборах
.
Статистики.
Для каждой переменной
:
число наблюдений без пропущенных значений
,
среднее значение и стандартное отклонение
.
Для каждого случая применения факторного
анализа
:
корреляционная матрица переменных
,
включая уровни значимости
,
определитель
и обратную матрицу
;
воспроизведенная корреляционная матрица
,
включая антиобраз
;
начальное решение
(
общности
,
собственные числа и процент объясненной дисперсии
);
показатель выборочной адекватности Кайзера
-
Мейера
-
Олкина и критерий сферичности
Бартлетта
;
неповернутое решение
,
включая факторные нагрузки
,
общности и собственные
числа
;
повернутое решение
,
включая матрицу факторного отображения после вращения
и матрицу преобразования факторов
.
Для косоугольных вращений
:
матрицы факторного
отображения и факторной структуры после вращения
;
матрица коэффициентов значений
факторов и матрица ковариаций факторов
.
Графики
:
график типа
“
осыпь
”
собственных
чисел
,
диаграмма нагрузок первых двух или трех факторов
.
Данные.
Переменные должны быть количественными
,
измеренными в
интервальной
шкале или шкале
отношений
.
Категориальные данные
(
такие как исповедуемая религия
или место рождения
)
не подходят для факторного анализа
.
Данные
,
для которых
© Copyright IBM Corporation 1989, 2011.
171