Файл: Отчет по лабораторной работе №4.docx

Добавлен: 13.02.2019

Просмотров: 624

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«Новосибирский государственный технический университет»

Кафедра Автоматизированных систем управления









Отчет по лабораторной работе №4

по дисциплине «Методы анализа данных»

Факторный анализ









Факультет: АВТФ

Группа: АВТ-412

Выполнили: Лазаревич М.М.

Евтушенко Н.С.

Проверила: Ганелина Н.Д.















Новосибирск

2017 г.



Цель работы:

Познакомиться с теорий и практикой факторного анализа.

Постановка задачи:

Для выбранного массива данных провести факторный анализ. Проанализировать полученные результаты.

Описание исходного массива данных:

Представленные данные были получены путём исследования изображений различных видов листов. Исследуемый массив содержит 16 атрибутов:

  1. Класс

  2. Номер листа

  3. Эксцентриситет эллипса, описывающего лист

  4. Соотношение сторон описывающего лист прямоугольника

  5. Удлинение, характеризует закруглённость контура листа

  6. Твёрдость: отношение площади поверхности листа к площади оптимального выпуклого многоугольника, описывающего листа.

  7. Стохастическая выпуклость: вероятность случайно выбранной точки быть внутри границ листа.

  8. Изопериметрический фактор: отношение площади листа к квадрату длины контура.

  9. Максимальная глубина отступа: максимум отношение разности расстояний по х и у точки внутри листа до центроида внешнего выпуклого многоугольника к длине дуги

  10. Дольчатость: мера, характеризующая разделение листа на отдельные доли(лопасти), зависит от параметра 9.

  11. Средняя интенсивность

  12. Средняя контрастность: среднеквадратичное отклонение интенсивности

  13. Гладкость: мера относительной гладкости интенсивности, зависит от параметра 12

  14. Третий момент: мера асимметрии гистограммы интенсивности

  15. Однородность: сумма квадратов частот интенсивностей по всем уровням, максимальное значение 1.

  16. Энтропия: мера случайности интенсивности

Атрибуты 10 и 13 не используются в анализе, так как они зависят от параметров 9 и 12 соответственно.

Корреляционная матрица переменных, используемых в дальнейшем.

Ход работы:

Факторный анализ в Statistica:

Проведём факторный анализ методом главных компонент с параметрами, изображёнными ниже:

Результирующие нагрузки факторов при отсутствии вращения:

В результате провденеия факторного анализа было выделено три фактора. Первый фактор имеет большие нагрузки у переменных, являющихся статистическими характеристиками интенсивности изображения листа. Второй фактор соответствует переменным, относящимся к характеристикам, относящимся к площади листа. Третий фактор имеет большие нагрузки у переменных “Эксцентриситет” и “Соотношение сторон”, эти переменные характеризуют форму листа, при этом нагрузка, соответствующая переменной “Удлинение” имеет значение 0.65 для фактора 3 и 0.6 для фактора 1, эту переменную нельзя явным образом отнести к тому или иному фактору.


Проведём факторный анализ тем же методом (главных компонент), только на этот раз используем метод вращения квартимакс. Данный метод должен минимизировать число факторов для объяснения каждой переменной.

Результаты проведённого анализа:

Графики нагрузок:

График собственных значений:

Судя по виду графика собственных значений можно сделать вывод, что число факторов в данном случае точно не превышает 4.

Как видно из таблицы нагрузок, нагрузки, который раньше превосходили значени 0.7 для всех факторов увеличили своё значение, при этом фактор 3 теперь имеет существенную нагрузку для переменной “Удлинение”. Также стоит отметить, что большая часть не существенных в прошлом анализе нагрузок теперь имеют меньшие значения.

Для проверки полученных результатов проведём анализ другим методом, на этот раз испоьзуется метод "общности как множественный R-квадрат” с методом вращения варимакс.

Результаты:

Полученные нагрузки факторов соответствуют результатам предыдущего анализа.

Факторный анализ в SPSS Statistics:

Используем метод главных компонент с методом вращения варимакс, в качестве критерия определения числа факторов используется критерий Кайзера (отбираются факторы с собственными значениями не меньше единицы).

Результаты:

В результате анализа было выделено 3 фактора, они объясняют 86 процентов дисперсии. В целом выводы на основе проведённого анализа совпадают с предыдущими.

Вторым используемым методом является невзвешенный метод наименьших квадратов. Метод вращения – варимакс.

Результаты:

Данный метод также позволил выделить 3 фактора, но доля объяснённой дисперсии стала ниже, как и распределение нагрузок.

Также в рамках данной лабораторный была сделана попытка использовать обобщённый метод наименьших квадратов, однако в процессе анализа не удалось выделить ни одного фактора.

Факторный анализ в Deductor:

Используем метод ортогонального вращения варимакс с нормализацией по методу Кайзеру.

В результате оставим три главные компоненты.

Как и следовало ожидать, полученные результаты совпадают с результатами применения метода главных компонент с методом вращения варимакс в пакете SPSS Statistics.





Выводы:

Для выбранного массива данных был проведён факторный анализ в программах Statistica, SPSS Statistics, Deductor. По результатам проведённых различными методами анализов было выделено 3 факторы, первый фактор можно назвать “Текстура листа”, второй фактор – “Форма поверхности листа”, третий фактор – “Внешний контур листа”.