ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 30.11.2023
Просмотров: 204
Скачиваний: 8
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
38 10. На следующем этапе необходимо определить способы отоб- ражения полученных результатов. Отметьте пункты «Дерево решений», «Правила», «Значимость атрибутов». «Таблица со- пряжённости» и «Что-если». Нажмите «Далее», а затем «Гото- во».
11. Сохраните полученные результаты.
12. При помощи опции «Что-если» попытайтесь найти скрытые закономерности, введённые в БД в лабораторной работе №2.
Для удаления введённых значений входных параметров ис- пользуйте функцию «Очистить значения входных полей» (см. рис. 2). Результаты поиска (скриншоты) сохраните в тексто- вый файл.
13. Сделайте выводы об эффективности построенного дерева и результатах поиска.
Задание №3 1. Запустите Deductor.
2. Импортируйте набор данных из текстового файла, который вы создали в лабораторной работе №2. Убедитесь, что в файле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования.
3. Запустите мастер обработки.
4. В открывшемся окне выберите пункт «Дерево решений».
Нажмите «Далее».
5. В открывшемся окне обозначьте поле, которое у Вас было це- левым в лабораторной работе №2, как выходное, а остальные
– как входные. Нажмите «Далее».
6. На следующем этапе производится разбиение исходного мно- жества на обучающее и тестовое. Настройки не изменяйте.
Нажмите «Далее».
7. На следующем этапе производится настройка параметров обу- чения дерева. Настройки не изменяйте. Нажмите «Далее».
8. На следующем этапе производится настройка способа обуче- ния дерева. Выберите «Интерактивное построение».
9. На следующем этапе необходимо определить способы отоб- ражения полученных результатов. Отметьте пункты «Дерево решений», «Правила», «Значимость атрибутов». «Таблица со- пряжённости» и «Что-если». Нажмите «Далее», а затем «Гото- во».
39 10. При помощи опции «Разбить текущий узел на подузлы» (см. рис.3) постройте дерево решений, ориентируясь на значение параметра Gain Ratio. Внимание: при Gain Ratio = 0, исполь- зовать атрибут для разбиения не нужно! Проводите разбиение узлов до тех пор, пока для всех переменных Gain Ratio не ста- нет равным нулю.
11. Сохраните полученные результаты.
12. При помощи опции «Что-если» попытайтесь найти скрытые закономерности, введённые в БД в лабораторной работе №2.
Для удаления введённых значений входных параметров ис- пользуйте функцию «Очистить значения входных полей» (см. рис. 2). Результаты поиска (скриншоты) сохраните в тексто- вый файл.
13. Сделайте выводы об эффективности построенного дерева, сравнив его с деревом из задания №2. Сделайте выводы о ре- зультатах поиска скрытых закономерностей.
Рис.19. Функция «Очистить значения входных полей»
Рис.20. Опция «Разбить текущий узел на подузлы»
Содержание отчёта
1. Титульный лист.
2. Цель лабораторной работы.
3. Предметную область Вашей базы данных.
4. 15 уникальных записей из Вашей базы данных.
5. Результаты выполнения задания №1 (дерево решений, прави- ла, значимость атрибутов (привести только значимые атрибу- ты!), таблица сопряжённости, выводы).
40 6. Результаты выполнения задания №2 (дерево решений, прави- ла, значимость атрибутов (привести только значимые атрибу- ты!), таблица сопряжённости, выводы).
7. Результаты выполнения задания №3 (дерево решений, прави- ла, значимость атрибутов (привести только значимые атрибу- ты!), таблица сопряжённости, выводы).
Контрольные вопросы
1. Что такое дерево решений?
2. Как построить дерево решений в Deductor?
3. Поясните содержимое вкладок «Дерево решений», «Правила»,
«Значимость атрибутов». «Таблица сопряжённости» и «Что- если»?
4. Что такое «жадный алгоритм»?
5. Области применения деревьев решений?
Список литературы
1. Пальмов С.В. Конспект лекций по дисциплине «Интеллекту- альные системы и технологии».
2. Сайт basegroup.ru.
3. Руководство пользователя ПО Deductor Academic.
41
Лабораторная работа №4. Ассоциативные правила
Цель работы: Научиться использовать ассоциативные правила для анализа данных
Введение
Ассоциативные правила позволяют находить закономерности между связанными событиями. Примером такого правила, служит утверждение, что покупатель, приобретающий "Хлеб", приобретёт и "Молоко" с вероятностью 75%.
Первая практическая задача, для решения которой были исполь- зованы ассоциативные правила, - нахождение типичных шаблонов покупок, совершаемых в супермаркете (анализ рыночной корзины, market basket analysis).
Он производится путём анализа баз данных транзакций с целью определения комбинаций товаров, связанных между собой. То есть, выполняется обнаружение товаров, наличие которых в транзакции влияет на вероятность появления других товаров или их комбинаций.
Результаты, полученные с помощью анализа рыночной корзины, позволяют оптимизировать ассортимент товаров и запасы, размещение их в торговых залах, увеличивать объёмы продаж за счёт предложения клиентам сопутствующих товаров. Например, если в результате анали- за будет установлено, что совместная покупка макарон и кетчупа явля- ется типичным шаблоном, то разместив эти товары на одной и той же витрине можно «спровоцировать» покупателя на их совместное при- обретение.
Для решения задачи анализа рыночной корзины используются ас- социативные правила вида «если… то...». Например, «если клиент ку- пил пиво, то он купит и чипсы». Каждая покупка именуется «транзак-
цией», на основании большего набора таких транзакций и строят ис- следования поведения клиента.
Для характеристики правила используются следующие метрики
Правило X→Y имеет поддержку s (support), если s транзакций из
D, содержат пересечение множеств X и Y. Достоверность правила по- казывает какова вероятность того, что из X следует Y. Правило X→Y справедливо с достоверностью c (confidence), если c транзакций из D, содержащих X, также содержат Y, conf(X→Y) = supp(X→Y)/supp(X).
Например, «75% транзакций, содержащих хлеб, также содер- жат молоко. 3% от общего числа всех транзакций содержат оба това- ра». 75% – это достоверность (confidence) правила, 3% - это поддержка
42
(support), или «Хлеб»→«Молоко» с вероятностью 75% и поддержкой
3%.
В основном, очевидные правила имеют высокую поддержку и до- стоверность (60% и больше), но не являются знаниями де-факто. Ос- новное внимание необходимо уделять правилам, имеющим поддержку
5-10%, именно они могут стать источником идеи промоакции или услуги.
Описание программного обеспечения
Данная лабораторная работа должна выполняться при помощи
ПО Deductor Academic 5.3.
Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
Изучить по лекциям и учебной литературе особенности обнару- жение ассоциативных правил и работы в ПО Deductor Academic 5.3.
Порядок выполнения лабораторной работы
Задание №1
Произвести анализ совместно покупаемых товаров (бытовая хи- мия).
1. Запустите Deductor.
2. Импортируйте набор данных из текстового файла «Чеки.txt».
3. Запустите мастер обработки.
4. В открывшемся окне выберите пункт «Ассоциативные прави- ла». Нажмите «Далее».
5. Убедитесь, что «ID» - это идентификатор транзакции, а
«ITEM» - элемент транзакции.
6. Дальнейшие настройки оставьте без изменений. Запустите процесс поиска правил.
7. После завершения процесса поиска правил необходимо опре- делить способы отображения полученных результатов. От- метьте пункты «Правила», «Популярные наборы», «Дерево правил», «Что-если», «Таблица».
Правила - в визуализаторе выводятся полученные ассоциативные пра-
вила и их основные расчётные характеристики; Популярные наборы -
43
отображается множество найденных популярных предметных набо-
ров; Дерево правил - отображение множества ассоциативных правил
в виде двухуровневого дерева построенного по условию или по след-
ствию; Что-если - позволяет ответить на вопрос, что будет в каче-
стве следствия, если изменяться данные условия.
8. Сохраните полученные результаты.
9. Сделайте выводы о полученных правилах (достоверность, поддержка)
Задание №2 1. Внесите изменения в Вашу БД из лабораторной работы №2, чтобы она стала пригодна для анализа средствами Deductor на предмет поиска ассоциативных правил. Убедитесь, что в фай- ле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования.
Замечание: если Вы до этой работы использовали в своей базе цифро- вую кодировку значений параметров – уберите её!
2. Запустите Deductor.
3. Сгенерируйте набор правил и, при помощи опции «Что-если», попытайтесь выявить скрытые закономерности в Вашей БД
(15 штук). Результаты поместите в отчёт. Сделайте выводы.
Содержание отчёта
1. Титульный лист.
2. Цель лабораторной работы.
3. Предметная область Вашей базы данных.
4. 15 уникальных записей из Вашей базы данных.
5. Перечень правил и выводы (задание №1).
6. Скриншоты результатов поиска скрытых закономерностей и выводы (задание №2).
Контрольные вопросы
1 2 3 4 5 6
1. Для чего могут быть использованы ассоциативные правила?
2. Какова структура ассоциативного правила? Приведите приме- ры правил.
3. Какие характеристики ассоциативных правил Вы знаете?
4. Опишите процесс поиска ассоциативных правил в Deductor.
44 5. Опишите процесс поиска ассоциативных правил.
Список литературы
1. Пальмов С.В. Конспект лекций по дисциплине «Интеллекту- альные системы и технологии».
2. Сайт basegroup.ru.
3. Руководство пользователя ПО Deductor Academic.
45
Лабораторная работа №5. Кластеризация (самоорганизующаяся карта Кохонена)
Цель работы: Научиться использовать самоорганизующиеся карты
Кохонена для кластеризации данных
Введение
Приведём несколько определений кластеризации.
Кластеризация - это группировка объектов (наблюдений, собы- тий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от прочих, которые вошли в другие кластеры.
Кластеризация - группировка объектов на основе близости их свойств; каждый кластер состоит из схожих объектов. а объекты раз- ных кластеров существенно отличаются.
Кластеризация – процедура, которая любому объекту
∈ ста- вит в соответствие метку кластера
∈ .
Кластеризацию используют, когда отсутствуют априорные сведе- ния относительно классов, к которым можно отнести объекты иссле- дуемого набора данных, либо, когда число объектов велико, что за- трудняет их ручной анализ.
Постановка задачи кластеризации сложна и неоднозначна, так как:
оптимальное количество кластеров в общем случае неизвест- но;
выбор меры «похожести или близости свойств объектов меж- ду собой, как и критерия качества кластеризации, часто носит субъективный характер.
Самоорганизующаяся карта Кохонена (self organizing шар, SOM) позволяет представлять результаты кластеризации в виде двумерных карт, где расстояния между объектами соответствуют расстояниям между их векторами в многомерном пространстве, а сами значения признаков отображаются различными цветами и оттенками, Можно провести аналогию между SOM и обычной географической картой, где размещение объектов и расстояния между ними соответствуют их рас- положению на земной поверхности, Однако, кроме горизонтальных координат, необходимо показать и рельеф - высоту гор, холмов, а так- же глубину водоёмов. Для этого используется специальная цветовая
46 гамма. Так, высота местности отображается с помощью оттенков ко- ричневого, глубина морей и океанов - синего: чем выше или глубже объект, тем более тёмным цветом он окрашивается. Таким образом, двумерная карта позволяет представлять трёхмерные данные.
Описание программного обеспечения
Данная лабораторная работа должна выполняться при помощи
ПО Deductor Academic 5.3.
Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
Изучить по лекциям и учебной литературе особенности карт Ко- хонена и работы в ПО Deductor Academic 5.3.
Порядок выполнения лабораторной работы
Задание №1
Выполните сегментацию абонентов телекоммуникационной ком- пании.
1. Запустите Deductor.
2. Импортируйте набор данных из текстового файла
«Абоненты.txt».
3. На третьем шаге импорта убедитесь, что «Разделители целой и дробной части числа» - точка, а не запятая!
4. На шестом шаге импорта настройте тип данных для полей:
«Среднемесячный расход», «Средняя продолжительность раз- говора», «Доля звонков на стационарные телефоны» - веще- ственный; для всех остальных - целый.
5. Запустите мастер обработки и выберите пункт «карта Кохоне- на».
6. На первом шаге установите назначение полей. Полю «Код» присвойте назначение – «Информационное», всем остальным
– «Входное».
7. На следующем шаге задайте способ разбиения исходного набора данных на обучающее и тестовое. Для решения теку-
47 щей задачи тестовое множество не нужно, поэтому укажите для обучающего множества - 100%.
8. На следующем шаге задайте размеры карты. По X - 24, по Y -
18.
9. Остальные настройки оставьте без изменений. Запустите про- цесс построения. Выполнение операции займёт некоторое время (длительность – 500 эпох).
10. В качестве способа отображения отметьте пункт «Карта Кохо- нена».
11. На следующем шаге отметьте все входные столбцы, а также пункты «Кластеры» и «Матрица ошибок квантования».
Нажмите «Далее».
12. Кластеры выделились не очень чётко. Попробуйте улучшить результат.
13. Постройте дополнительную карту Кохонена, в которой мак- симальной значимостью будут обладать поля: «Возраст» и
«Среднемесячный расход». Скопируйте узел «Самоорганизу- ющаяся карта [24; 18]» (ПКМ по узлу и выберите из кон- текстного меню требуемый пункт) и сделайте его перена- стройку (выделите скопированный узел и нажмите Alt+Enter).
14. На первом шаге нажмите «Настройка нормализации». Для всех полей, кроме «Возраст» и «Среднемесячный расход», установите значимость равную 30%. Все остальные настройки оставьте без изменений.
15. Запустите построение карты.
16. После завершения построения, дополнительно активируйте следующие визуализаторы: «Матрица сравнения», «Профили кластеров», «Связи кластеров».
17. Хотя количество кластеров увеличилось до 11 (было 10), но, качество разбиения несколько улучшилось (значения коэффи- циентов в матрице ошибок квантования уменьшились).
18. Проанализируйте кластеры, ответив на следующие вопросы
(ответы – в отчёт):
- какие кластеры обладают наименьшим разбросом значений параметров?
- какие кластеры обладают наибольшим разбросом значений параметров?
19. Выявите наиболее заметные особенности каждого кластера
(например, наибольшее количество SMS за месяц среди всех кластеров) и, исходя из этого, присвойте каждому кластеру
48 новое имя (например, «Бизнесмены»). Причину выбора имени для каждого кластера опишите в отчёте.
20. Сохраните полученные результаты.
Матрица ошибок квантования – отображает среднее расстояние от
расположения примеров до центра ячейки. Пример находится в мно-
гомерном пространстве, где количество измерений равно числу вход-
ных полей. Центр ячейки – точка пространства с координатами,
равными весам нейрона. Матрица ошибок квантования показывает,
насколько хорошо обучена нейросеть. Чем меньше среднее расстоя-
ние до центра ячейки, тем ближе к ней расположены примеры, и тем
лучше построена модель.
Визуализатор Профили кластеров позволяет наглядно оценить ре-
зультаты кластеризации и исследовать статистические характери-
стики кластеров. Он доступен для обработчиков, реализующих алго-
ритмы кластеризации и даёт возможность наглядно оценить сег-
ментацию исходного набора данных, а также влияние на формирова-
ние кластеров входных факторов.
Задание №2 1. Импортируйте набор данных из текстового файла, который вы создали в лабораторной работе №2. Убедитесь, что в файле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования.
2. Запустите Deductor.
3. Разбейте данные на кластеры и, при помощи опции «Что- если», попытайтесь выявить скрытые закономерности в Вашей
БД (15 штук). Результаты поместите в отчёт. Сделайте выво- ды.
Содержание отчёта
1. Титульный лист.
2. Цель лабораторной работы.
3. Предметная область Вашей базы данных.
4. 15 уникальных записей из Вашей базы данных.
5. Скриншоты кластеров, матриц ошибок квантования для двух сценариев и результаты выполнения пп. 18 и 19 (задание №1).
6. Скриншоты результатов поиска скрытых закономерностей и выводы (задание №2).