ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 30.11.2023
Просмотров: 205
Скачиваний: 8
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
60 наиболее простое факторное объяснение, т.е. характеризуется преоб- ладающим влиянием некоторого одного фактора, и в меньшей степени связана с другими факторами. И наоборот: один фактор должен быть специфическим образом связан с одной группой переменных и не свя- зан с другими переменными.
В узле реализовано два метода вращения: варимакс и квартимакс.
Варимакс – наиболее часто используемый на практике метод, цель которого – минимизировать количество переменных, имеющих высокие нагрузки на данных фактор, что способствует упрощению описания фактора за счёт группировки вокруг него только тех пере- менных, которые с ним связаны в большей степени, чем с остальными.
Квартимакс противоположен варимаксу, поскольку минимизиру- ет количество факторов, необходимых для объяснения данной пере- менной. Квартимакс-вращение приводит к выделению одного из об- щих факторов с достаточно высокими нагрузками на большинство переменных.
После расчёта факторных нагрузок для каждой переменной до- ступны два показателя: собственное значение и объём объясняемой дисперсии в %, а также суммарный процент дисперсии. Пример такого расчёта приведён в таблице ниже.
Собственное значение фактора – это его вклад в дисперсию пере- менных, объясняемую влиянием общих факторов. Считается, что те факторы, у которых этот показатель меньше 1,0, не вносят значитель- ного вклада в объяснение результата.
Второй расчётный показатель – процент объясняемой дисперсии переменных. Принято считать, что при хорошем факторном решении выбирают столько факторов, чтобы они в сумме объясняли не менее
70-75%. В отдельных случаях этот показатель может достигать 85-
90%.
Факторный анализ широко используется в следующей ситуации.
В очень большом исходном наборе данных есть много полей, некото- рые из которых взаимозависимы. На этом наборе данных требуется, к примеру, обучить нейронную сеть. Для того чтобы снизить время, тре- буемое на обучение сети, и требования к объёму обучающей выборки, с помощью факторного анализа осуществляют переход в новое про- странство факторов меньшей размерности. Так как большая часть ин- формативности исходных данных сохраняется в выбранных главных компонентах, то качество модели ухудшается незначительно, зато намного сокращается время обучения сети. Главной проблемой фак- торного анализа является выделение и интерпретация главных факторов.
61
Табл. 8
Фактор Собственное значение
% объясняе- мой дисперсии
Суммарный % объясняемой дисперсии
1 5,14 51,4 51,4 2
1,72 17,2 68,6 3
1,03 10,3 78,9 4
0,76 7,7 86,6 5
0,38 3,9 90,5 6
0,33 3,3 93,7 7
0,28 2,8 96,6 8
0,21 2,1 98,7 9
0,08 0,8 99,5 10 0,05 0,5 100,0
Настройки в Deductor
В узле «Факторный анализ» помимо вида метода (варимакс, квар- тимакс, без вращения) следует выбрать число выделяемых факторов.
Можно задать непосредственно число факторов в диапазоне от 1 до общего числа переменных, или задать долю дисперсии, описанной выделяемыми факторами по отношению к общей дисперсии.
После расчёта факторных нагрузок количество выявленных фак- торов можно изменить, уточняя порог значимости или количество факторов.
Пример
Рассмотрим пример из области анализа клиентской базы теле- коммуникационной компании. В подобных задачах обычно в распоря- жении исследователя оказываются десятки и сотни переменных, опи- сывающих поведенческий профиль клиента – агрегированная структу- ра потребления клиентом продуктов/услуг компании за определённый временной период, как в количественном, так и в стоимостном выра- жении.
Многие из таких переменных сильно коррелируют друг с другом, например, число звонков и стоимость звонков. Аналитику можно отобрать только часть таких переменных, опираясь на опыт и интуи- цию, а лучше воспользоваться факторным анализом для получения
62 сжатого описания всех переменных в виде нескольких главных факто- ров.
Пусть даны признаки, описывающие структуру потребления услуг мобильной связи (в среднем за год) в разных аспектах: тип вызо- ва (исходящий входящий), время звонка, направление связи (фиксиро- ванная, мобильная, сообщение) и другие, всего 21 непрерывная пере- менная.
Рис. 25
Рис. 26
Поставим задачу компактно описать каждого клиента, т.е. мини- мизировать число переменных.
Воспользуемся узлом «Факторный анализ» и зададим: метод вращения – варимакс, число факторов – 5.
63
Рис. 27
На следующем шаге мастера убедимся, что пять фактов обеспе- чили почти 70% вклада в результат. Откроем визуализатор «Фактор- ный анализ» и установим для отображения в матрице факторных нагрузок порог значимости 0,45 (остальные значения будут скрыты).
Все нагрузки становятся либо большими, либо маленькими, что упро- щает интерпретацию.
Рис. 28
64
Видно, что вращение помогло объединить наши переменные в логические группы:
Фактор 1 – высокие нагрузки на поведенческие характеристи- ки клиента, отвечающие за gsm-звонки.
Фактор 2 – фактор, отвечающий за обычные sms-сообщения.
Фактор 3 – фактор, отвечающий за активность в международ- ном направлении, включая звонки и sms.
Фактор 4 – фактор, отвечающий за активность в использова- нии платных sms-сервисов.
Фактор 5 – фактор, отвечающий за звонки на фиксированные средства связи.
В результате после обработчика нам доступен набор данных, где каждому клиенту соответствуют значения пяти главных факторов. Та- кой набор данных можно использовать для построения какой-нибудь модели, классификации или регрессии.
Описание программного обеспечения
Данная лабораторная работа должна выполняться при помощи
ПО Deductor Academic 5.3.
Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
Изучить по лекциям и учебной литературе особенности проведе- ния корреляционного и факторного анализа.
Задание №1. Автокорреляционный анализ (продажа товара)
Есть таблица (табл. 9) продаж некоторого товара за два с неболь- шим года.
Определим наличие сезонных зависимостей продаж этого товара.
1. Скопируйте таблицу в txt-файл.
2. Сохраните файл.
3. Запустите автокорреляцию. Одно из полей будет отмечено как недоступное. Просто нажмите «Далее».
65 4. Вычислите автокорреляционную функцию для поля «Объём продаж». Для оценки сезонности выберите количество отсчё- тов = 24 (два года).
Табл. 9
Дата
Объём продаж
01.01.2012 4795 01.02.2012 5772 01.03.2012 8259 01.04.2012 8418 01.05.2012 8064 01.06.2012 5462 01.07.2012 4142 01.08.2012 3910 01.09.2012 3450 01.10.2012 6994 01.11.2012 1999 01.12.2012 7286 01.01.2013 7355 01.02.2013 7108 01.03.2013 1876 01.04.2013 2976 01.05.2013 6365 01.06.2013 1806 01.07.2013 4774 01.08.2013 3391 01.09.2013 7824 01.10.2013 3118 01.11.2013 9404 01.12.2013 8451 01.01.2014 7820 01.02.2014 6319 01.03.2014 2954 01.04.2014 5819 01.05.2014 8815 01.06.2014 2915 01.07.2014 3575 01.08.2014 7488 01.09.2014 3183
66 5. Постройте диаграмму автокорреляции.
6. На диаграмме АКФ выглядит следующим образом (рис. 29).
Как видно из рисунка, в этом наборе данных автокорреляция слабая. Это обусловлено тем, что данные, использованные в работе, были сгенерированы случайным образом.
7. Создайте свой набор данных и проделайте для него пп. 1 – 5.
Рис. 29
Задание №2. Корреляционный анализ
Пусть есть временные ряды (табл. 10) продаж товаров. Определи- те корреляцию «Товара 1» с остальными.
1. Скопируйте таблицу в txt-файл.
2. Сохраните файл.
3. Импортируйте информацию из файла в Deductor.
4. Нажмите «F7» и выберите узел «Корреляционный анализ».
5. Отметьте «Товар 1» как входное поле. Остальные – выходные.
6. Прочие настройки оставьте без изменений.
7. В качестве визуализатора выберите «Матрица корреляции».
Как видно из рис. 30, ряд продаж для «Товар 2» имеет очень большую положительную, а «Товар 3» – отрицательную корреляцию.
Из этого можно сделать вывод, что «Товар 2», возможно, является со- путствующим товаром, а «Товар 3» – заместителем «Товар 1». Корре-
67 ляция с продажами «Товар 4» с «Товар 1» является отрицательной, но при этом абсолютное значение корреляции невелико, и, следовательно, можно говорить об отсутствии взаимосвязи между продажами «Товар
1» и продажами «Товар 4».
Табл. 10
Товар 1
Товар 2
Товар 3
Товар 4 10 20 15 25 12 22 12 26 14 25 9
26 13 24 10 25 14 25 9
24 14 25 9
23 12 21 12 24 10 18 14 23 16 24 9
22 13 21 9
23 17 25 7
25
Рис. 30 8. Выберите из табл. 11 (согласно варианта) нужный файл.
9. Переведите выбранный файл в формат txt.
10. Импортируйте информацию из него в Deductor.
11. Проведите корреляционный анализ. В качестве выходного по- ля выберите Result. Остальные поля – входные. Некоторые поля изначально будут отмечены как непригодные. С ними никаких действий предпринимать не нужно.
12. Сделайте выводы.
68
Табл.11
Номер в списке группы
Название файла
1 или 9 или 17 или 25
AusOpen-men-2013.csv
2 или 10 или 18 или 26
AusOpen-women-2013.csv
3 или 11 или 19 или 27
FrenchOpen-men-2013.csv
4 или 12 или 20 или 28
FrenchOpen-women-2013.csv
5 или 13 или 21 или 29
USOpen-men-2013.csv
6 или 14 или 22 или 30
USOpen-women-2013.csv
7 или 15 или 23 или 31
Wimbledon-men-2013.csv
8 или 16 или 24 или 32
Wimbledon-women-2013.csv
Задание №3. Факторный анализ
1. Выполните факторный анализ данных из файла, выбранного в предыдущем задании.
2. Задайте следующие настройки: а) варимакс и 5 факторов; б) квартимакс и 5 факторов; в) без вращения и 5 факторов.
3. Задайте следующие настройки: а) варимакс и 10 факторов; б) квартимакс и 10 факторов; в) без вращения и 10 факторов.
4. Задайте следующие настройки: а) варимакс и 15 факторов; б) квартимакс и 15 факторов; в) без вращения и 15 факторов.
5. Сделайте выводы об эффективности работы факторного ана- лиза при различных настройках.
Содержание отчёта:
1. Титульный лист.
2. Цель лабораторной работы.
3. Номер варианта.
4. Задание №1: Результаты выполнения пунктов 6 и 7.
5. Задание №2: Результаты выполнения пунктов 7 – 12.
6. Задание №3: Результаты выполнения пунктов 2 – 5.
Контрольные вопросы
1 2 3 4 5 6
1. Что такое автокорреляционный анализ?
2. Что такое АКФ?
3. Что такое корреляционный анализ?
4. Что такое факторный анализ?
5. Какие задачи решает факторный анализ?
6. Что такое варимакс и квартимакс?
69 7. Какова главная проблема факторного анализа?
Список литературы
1. Сайт basegroup.ru.
2. Руководство пользователя ПО Deductor Academic.
3. Описание демопримеров ПО Deductor Academic.
70
Лабораторная работа №8. Дубликаты и противоречия. Трансфор- мация данных
Цель работы: Научиться выявлять дубликаты и противоречия
Введение
Дубликаты и противоречия
При построении модели регрессии или классификации в анализи- руемых таблицах нужно определить входные и выходные поля, зави- симости между которыми и исследуются. Предполагается, что значе- ния входных полей полностью определяют значения выходных.
При подобной постановке задачи возможно возникновение про- тиворечий, то есть присутствие групп записей, значения в ключевых
(входных) полях которых полностью совпадают, а в целевых (выход- ных) – различаются. Например, если значения в ключевых полях – это коды товаров, а в целевых – цены этих товаров, то присутствие двух записей с одинаковым кодом, но с разной ценой как раз и создаёт про- тиворечие. Обычно бывает так, что только одна запись из группы про- тиворечивых является правильной, а остальные – ошибочными. Оче- видно, что присутствие ошибочных данных искажает результаты ана- лиза, поэтому противоречивые данные чаще всего лучше вообще ис- ключить из исходной выборки. Однако следует заметить, что искус- ственное введение противоречий в исходные данные может быть по- лезным, например, если нужно ввести некоторую неопределённость в данные, кроме того противоречия могут отражать особенности пове- дения анализируемого объекта.
Также в данных могут встречаться записи с одинаковыми вход- ными факторами и одинаковыми выходными, т.е. дубликаты. Эти дан- ные чаще всего избыточны, хотя присутствие дубликатов в анализиру- емых данных можно рассматривать как способ повышения «значимо- сти» дублирующийся информации. В некоторых случаях такой приём может быть полезен, например, если при обучении нейросети нужно особо выделить и усилить влияние некоторых наборов значений. Од- нако в других случаях дублирование может указывать на ошибки при подготовке исходных данных. Дубликаты могут искажать результаты некоторых методов анализа, например, статистического.
Так или иначе, в процессе анализа иногда возникает проблема выявления дубликатов и противоречий в данных. В Deductor для авто-
71 матизации этого процесса есть соответствующий инструмент – обра- ботчик «Дубликаты и противоречия».
Дубликаты – записи в таблице, все входные и выходные поля которых одинаковые.
Противоречия – записи в таблице, у которых все входные поля одинаковые, но отличаются хотя бы по одному выходному полю.
Суть обработки состоит в том, что определяются входные и вы- ходные поля. Алгоритм ищет во всем наборе записи, для которых оди- наковым входным полям соответствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информа- ции создаются два дополнительных логических поля – «Дубликат» и
«Противоречие», принимающие значения «истина» или «ложь», и до- полнительные числовые поля «Группа дубликатов» и «Группа проти- воречий», в которые записываются номер группы дубликатов и груп- пы противоречий, содержащих данную запись. Если запись не являет- ся дубликатом или противоречием, то соответствующие поля будут пустыми.
Настройка выявления дубликатов и противоречий заключается в выборе назначений полей исходной выборки данных, то есть в выборе, какие поля входные, а какие – выходные.
Трансформация данных
Анализируемая информация, представленная в виде набора дан- ных, имеет определённый формат. Под форматом данных подразуме- вается отнесение их к определённому типу (целочисленные, строко- вые, даты), задание вида (дискретные или непрерывные) и т. п. Для анализа различных аспектов информации может потребоваться преоб- разование её формата или трансформация. Кроме преобразования форматов трансформация включает в себя изменение представления данных и другие операции, связанные с преобразованиями входного набора данных.
Настройка набора данных
Обработчик «Настройка набора данных» предназначен для изме- нения имени, метки, типа, вида и назначения полей текущей выборки данных и кэширования выходного набора.
72
У каждого поля можно изменить метку столбца, которая будет использоваться для дальнейшей работы в программе. Если в текущей выборке данных поле имеет имя «Name», ему можно задать метку
«Наименование», что гораздо удобнее при дальнейшем отображении этого поля в таблицах или диаграммах.
Изменение имени поля удобно в тех случаях, когда имена столб- цов могут измениться в источнике данных или при перенастройке уз- лов верхних уровней. В этом случае в узле «Настройка набора дан- ных» имя исходного столбца заменяется другим, на которое и настраи- ваются все дочерние узлы. После такой операции изменение имён по- лей на верхних уровнях не потребует перенастройки всех дочерних узлов в дереве сценариев.
У каждого поля можно изменить вид, тип данных, назначение.
Сортировка
С помощью сортировки можно изменять порядок следования за- писей в исходной выборке данных в соответствии с заданным пользо- вателем алгоритмом сортировки. Результатом выполнения сортировки будет новая выборка данных, записи в которой будут следовать в со- ответствии с заданными параметрами сортировки.
Дата и время
Преобразование даты служит для анализа всевозможных показа- телей за определённый период (год, квартал, месяц, неделя, день, час, минута, секунда). Суть преобразования заключается в том, что на ос- нове столбца с информацией о дате/времени формируются один или несколько столбцов, в которых указывается, к какому заданному ин- тервалу времени принадлежит строка данных. Тип интервала задаётся аналитиком, исходя из того, что он хочет выделить из даты.
Такая операция требуется потому, что очень часто интересным для анализа является не сама дата, а её производная. Например, для анализа посещаемости магазина интересен день недели, а для оценки загруженности касс – час.
Замена данных
В результате выполнения этой операции производится замена значений по таблице подстановки, которая содержит пары, состоящие из исходного значения и выходного значения. Например, 0 – «крас-