ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 30.11.2023
Просмотров: 200
Скачиваний: 8
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
26 1)
If Age is 46,00 ... 70,00 (average = 62,00 ) and Speed is 2,30 ... 15,40 (average = 13,17 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,909
The rule exists in 10 records.
Significance Level: Error probability < 0,01 2)
If Width is 54,00 ... 87,00 (average = 64,82 ) and Speed is 2,30 ... 15,40 (average = 13,28 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,909
The rule exists in 10 records.
Significance Level: Error probability < 0,01 3)
If Speed is 2,30 ... 15,40 (average = 13,28 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,833
The rule exists in 10 records.
Significance Level: Error probability < 0,1
Как видим, в данном случае система выдала предсказание, что рассматриваемый объект относится к классу 2. Это решение система приняла на основании трёх правил.
Вторая возможность использования множества правил заключа- ется в обработке сразу большого массива новой информации. Для это- го перейдите к закладке Prediction Input в окне диалога для ввода дан- ных и в ней укажите файл, в котором записана новая информация.
Пусть это будет тот же самый файл с обучающей выборкой USR.txt.
Затем требуется задать имя файла, в который будут записываться ре- зультаты прогнозирования. Данная операция осуществляется с помо- щью кнопки Print result to… И наконец, нажимается кнопка Predict to file – система производит необходимые расчёт и сообщает, что резуль- таты успешно записаны в указанный файл.
Итогом выполнения первого задания работы должны быть:
1. Прогноз, полученный при помощи опции Predict online (ручной ввод) для произвольной записи. Результаты скопируйте в файл:
WizWhy_1_Фамилия.doc.
27 2. Прогноз, полученный при помощи опции Predict online (для большого массива файлов); используйте файл USR.txt.
Задание №2
В качестве источника данных выберите файл Stock (таблица
Companies1) (в папке «WizWhy»). Зависимая переменная – «Industry» - может принимать следующие значения:
1. 036 - Software & Programming
2. 0727 - Regional Banks
3. 1018 - Computer Services
4. 0803 - Biotechnology & Drugs
5. 0909 - Business Services
6. 0730 - S&Ls/Savings Banks
7. 0812 - Medical Equipment & Supplies
8. 0915 - Communications Services
9. 1024 - Electronic Instruments & Controls
10. 0721 - Misc. Financial Services
11. 1003 - Communications Equipment
12. 0933 - Real Estate Operations
13. 1030 - Scientific & Technical Instruments
14. 0609 - Oil & Gas Operations
15. 0218 - Misc. Capital Goods
16. The others.
Выберите согласно вашему варианту из вышеприведённого списка значение зависимой переменной. Установите следующие зна- чения параметров:
Рис. 17
28
Выполните процедуру поиска правил. После этого, при помощи опции Predict online выполните прогнозирование на основе получен- ных правил (в качестве анализируемого набор данных выберите таб- лицу Companies2 из файла Stock).
Содержание отчёта (часть 2): Аналогично части 1.
Содержание отчёта (в отдельных файлах):
1. Прогноз, полученный при помощи опции Predict online (руч- ной ввод) для произвольной записи. Результаты скопируйте в файл: WizWhy_1_Фамилия.doc; используйте файл USR.txt.
2. Прогноз, полученный при помощи опции Predict online (для большого массива файлов); используйте файл USR.txt.
3. Прогноз, полученный при помощи опции Predict online (руч- ной ввод) для произвольной записи. Результаты скопируйте в файл: WizWhy_1_Фамилия.doc; используйте файл Stock.
4. Прогноз, полученный при помощи опции Predict online (для большого массива файлов); используйте файл Stock.
Контрольные вопросы
1. Назовите форматы файлов, с которыми может работать
WizWhy.
2. Дайте понятие зависимой и независимой переменной. Приве- дите примеры.
3. Опишите процесс задания параметров поиска правил.
4. Поясните содержимое окна Error Costs.
5. Каково максимальное число элементарных логических собы- тий, которое может обнаружить WizWhy в данных?
6. Поясните состав блока общей информации об обнаруженных правилах.
7. Поясните структуру правила, обнаруживаемого при помощи
WizWhy.
8. Как функционирует опция Predict online?
Список литературы
1. Конспект лекций по дисциплине «Интеллектуальные системы и технологии».
29
Лабораторная работа №2. Проверка аналитических возможностей системы WizWhy
Цель работы: Проверить прогностические возможности аналитиче- ской системы WizWhy.
Описание программного обеспечения
Данная лабораторная работа должна выполняться при помощи
ПО WizWhy.
Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
Изучить по лекциям особенности работы алгоритмов поиска ас- социативных правил.
Порядок выполнения лабораторной работы
1. Создать базу данных (предметная область – любая, кроме ав- томобилей), содержащую скрытые закономерности (15 шт.).
2. Попытаться выявить скрытые закономерности при помощи
WizWhy.
3. Сделать выводы.
Пояснения к лабораторной работе
1. Создать базу данных, содержащую ассоциативные правила
(скрытые закономерности).
ВНИМАНИЕ! При создании базы весь текст (названия полей, значения) – на латинице. Формат - .txt.
Создание базы начинается с выбора предметной области. Допу- стим, Вы выбрали «Автомагазин». После этого необходимо создать для базы 15 скрытых закономерностей (правил), которые Вы попытае- тесь обнаружить при помощи WizWhy. Закономерности представля- ются в формате «Если»… «то». Например, закономерность может вы- глядеть так: «Если цвет машины = красный то цена = $20000».
30
Итак, вы создали первую закономерность (правило). Каким же образом поместить закономерность в базу данных? Для этого инфор- мацию из созданного правила необходимо добавить в базу данных.
Делается это следующим образом. Создаём пустую базу данных. Вы
(для примера) выбрали автомобили:
Табл. 2
Цве т
Марка
С пробегом
Тип кузова
Приобрете- ние в кредит
Тип дви- гателя
Цена
Заносим в неё информацию из правила:
Табл.3
Цвет
Мар- ка
С про- бегом
Тип кузо- ва
Приобрете- ние в кредит
Тип дви- гателя
Цена крас- ный
2000 0
Заполняем оставшиеся ячейки произвольной информацией.
Например:
Табл.4
Цвет
Мар- ка
С про- бегом
Тип кузо- ва
Приобрете- ние в кредит
Тип дви- гателя
Цена крас- ный
Форд
Да
Се- дан
Да бензин
2000 0
Как было сказано выше, все надписи должны быть на латинице.
Поэтому:
Табл.5
Cvet
Marka
S probe- gom
Tip kuzova
V kred- it
Dvigatel
Cena krasny
Ford
Da
Sedan
Da benzin
20000
31
Т.о., у Вас получилась база данных состоящая (пока) из одной за- писи, в которой содержится скрытая закономерность «Если цвет ма- шины = красный то цена = $20000».
В Вашей базе 7 атрибутов (полей). Это сделано специально. Про- грамма WizWhy имеет следующее ограничение: она может находить закономерности (правила), в условной части которых содержится не более шести условий, т.е. правило вида: «Если условие1=a и усло- вие2=b и… и условие 6=f то следствие=z» будет самым сложным, которое сможет найти система. Поэтому в Вашей базе (ОБЯЗАТЕЛЬ-
НОЕ УСЛОВИЕ!!!) должно быть 6 условий (или независимых пере- менных) и одно следствие (зависимая или целевая переменная). В дан- ном примере первые 6 атрибутов (полей) – независимые переменные, а последняя – зависимая.
Табл. 6
Cvet
Marka
S probe- gom
Tip kuzova
V kred- it
Dvigatel
Cena krasny
Ford
Da
Sedan
Da benzin
20000
Продолжаем создавать закономерности и заполнять базу. Необ- ходимо создать ещё четыре закономерности с одним условием в условной части (т.е., в сумме будет 5). Принцип их создания аналоги- чен рассмотренному выше: создаём (и записываем) закономерность – переносим информацию из неё в базу данных – заполняем оставшиеся поля - создаём (и записываем) закономерность – переносим информа- цию из неё в базу данных-… .
Далее, создаём закономерность с тремя условиями в условной ча- сти (их тоже должно быть пять штук) и с шестью условиями в услов- ной части (пять штук).
Таким образом, Вы создали 15 закономерностей, каждая из кото- рых содержится в соответствующей записи базы данных. Ваша база содержит 15 уникальных записей, но этого мало. Почему? А потому, что WizWhy имеет ещё одно ограничение: эта система находит только те закономерности, которые встречаются в базе данных хотя бы четы- ре раза. Поэтому, чтобы точно выполнить это условие скопируйте Ва- ши 15 записей три раза. Получим базу из 60 записей. Ваша база готова.
Замечания
32
- Целевая переменная – всегда одна и та же. Выбрали целевой пере- менной атрибут «цена», значит для всех 15 закономерностей он и бу- дет целевым (значения целевого атрибута, естественно, могут быть разными в разных закономерностях; например, цена = 10000, цена =
20000 и т.д.).
- Если создаёте базу в формате .txt – отделяйте значения в одном столбце о другого табуляцией.
2. Проверить возможности системы WizWhy по обнаружению скрытых закономерностей.
Загружаем базу в WizWhy (см. лр №1). И начинаем проверять правила. Для этого выполняем следующий набор действий: a) Выбираем первое правило: Если цвет машины = красный то цена =
$20000. b) Настраиваем параметры поиска правил (см. лр №1). При этом зада-
ём: цена = $20000, minimum number of cases in a rule = 4, maximum number of condition in a rule = 6. c) Запускаем процесс поиска правил (см. практическую работу). d) После завершения процесса поиска правил, получаем набор правил
(модель), которую можно использовать для поиска закономерностей. e) При помощи опции predict online (см. практическую работу) пы- таемся обнаружить первую закономерность: Если цвет машины = красный то цена =
$20000. Вводим зна- чение условия и запускаем процесс поиска. f) В результате система формирует отчёт, содержащий различную информацию. Вас ин- тересует строка, которая начинает со слова Prediction. Это результат поиска. Например, для данного случая: Prediction = 20000 – закономерность обнаружена;
Prediction = No
20000 – не обнаружена. g) Скопируйте отчёт в отчёт по контрольной работе. h) Повторите пп. a – g для оставшихся закономерностей.
Напоминаю: цель работы состоит в проверке возможностей си- стемы. Если какие-то из закономерностей не удалось обнаружить, то это не значит, что Вы ошиблись. Это значит, что программа не смогла
33 найти эту закономерность, и вы смело копируете результаты её работы в отчёт.
Содержание отчёта
1. Титульный лист
2. Цель работы
3. 15 закономерностей в формате если… то.
4. 15 уникальных записей из БД (скриншот).
5. 15 отчётов из predict online.
6. Выводы по работе (сколько правил найдено, сколько нет).
34
Лабораторная работа №3. Деревья решений
Цель работы: Научиться использовать деревья решений для анализа данных
Введение
Определение
Деревья решений – это способ представления правил в иерархи- ческой, последовательной структуре, где каждому объекту соответ- ствует единственный узел, дающий решение.
Правило – логическая конструкция вида «Если… то…».
Рис.18 Фрагмент дерева решений
Области применения деревьев решений
Описание данных: позволяют хранить точное описание объек- тов в компактной форме.
Классификация: деревья решений хорошо справляются с зада- чами классификации (отнесения объектов к одному из заранее известных классов); целевая переменная должна быть дис- кретной.
Регрессия: если целевая переменная имеет непрерывные зна- чения, деревья решений позволяют установить зависимость целевой переменной от независимых (входных) переменных.
Общие принципы построения деревьев решений
35
Пусть задано некоторое обучающее множество T, содержащее объекты (примеры), каждый из которых характеризуется m атрибута- ми, причём один из них указывает на принадлежность объекта к опре- делённому классу.
Пусть через {C
1
, C
2
, ... C
k
} обозначены классы (значения метки класса), тогда существуют 3 ситуации:
1. множество T содержит один или более примеров, относящих- ся к одному классу C
k
. Тогда дерево решений для Т – это лист, определяющий класс C
k
;
2. множество T не содержит ни одного примера, т.е. пустое мно- жество. Тогда это снова лист, и класс, ассоциированный с ли- стом, выбирается из другого множества отличного от T, ска- жем, из множества, ассоциированного с родителем;
3. множество T содержит примеры, относящиеся к разным клас- сам. В этом случае следует разбить множество T на некоторые подмножества. Для этого выбирается один из признаков, име- ющий два и более отличных друг от друга значений O
1
, O
2
, ...
O
n
. T разбивается на подмножества T
1
, T
2
, ... T
n
, где каждое подмножество T
i
содержит все примеры, имеющие значение
O
i
для выбранного признака. Это процедура будет рекурсивно продолжаться до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же клас- су.
Вышеописанная процедура лежит в основе многих современных алгоритмов построения деревьев решений, этот метод известен ещё под названием разделения и захвата (divide and conquer). Очевидно, что при использовании данной методики, построение дерева решений будет происходит сверху вниз.
Поскольку все объекты были заранее отнесены к известным нам классам, такой процесс построения дерева решений называется обуче- нием с учителем (supervised learning). Процесс обучения также назы- вают индуктивным обучением или индукцией деревьев (tree induction).
На сегодняшний день существует значительное число алгорит- мов, реализующих деревья решений CART, C4.5, NewId, ITrule,
CHAID, CN2 и т.д. Но наибольшее распространение и популярность получили следующие два:
CART (Classification and Regression Tree) – это алгоритм по- строения бинарного дерева решений. Каждый узел дерева при
36 разбиении имеет только двух потомков. Как видно из названия алгоритма, решает задачи классификации и регрессии.
C4.5 – алгоритм построения дерева решений, количество по- томков у узла не ограничено. Не умеет работать с непрерыв- ным целевым полем, поэтому решает только задачи классифи- кации.
Большинство из известных алгоритмов являются "жадными алго-
ритмами". Если один раз был выбран атрибут, и по нему было произ- ведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другой атрибут, который дал бы лучшее разбиение. И поэтому на этапе построения нельзя сказать даст ли выбранный атри- бут, в конечном итоге, оптимальное разбиение.
Описание программного обеспечения
Данная лабораторная работа должна выполняться при помощи
ПО Deductor Academic 5.3.
Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
Изучить по лекциям и учебной литературе особенности построе- ния деревьев решений и работы в ПО Deductor Academic 5.3.
Порядок выполнения лабораторной работы
Задание №1 1. Запустите Deductor.
2. Импортируйте набор данных из текстового файла «Голосова- ние конгресса.txt» (выберите «Сценарии», нажмите «F6», вы- берите пункт «Text», выберите путь к файлу, остальные поля оставляйте без изменений).
3. Запустите мастер обработки (выберите в разделе «Сценарии» пункт «Текстовый файл…» и нажмите «F7»).
4. В открывшемся окне выберите пункт «Дерево решений».
Нажмите «Далее».
5. В открывшемся окне обозначьте поле «Класс» как выходное, а остальные – как входные. Нажмите «Далее».
37 6. На следующем этапе производится разбиение исходного мно- жества на обучающее и тестовое. Настройки не изменяйте.
Нажмите «Далее».
7. На следующем этапе производится настройка параметров обу- чения дерева. Настройки не изменяйте. Нажмите «Далее».
8. На следующем этапе производится настройка способа обуче- ния дерева. Настройки не изменяйте. Нажмите «Далее».
9. На следующем этапе нажмите «Пуск». Когда процесс будет завершён, нажмите «Далее».
10. На следующем этапе необходимо определить способы отоб- ражения полученных результатов. Отметьте пункты «Дерево решений», «Правила», «Значимость атрибутов». «Таблица со- пряжённости» и «Что-если». Нажмите «Далее», а затем «Гото- во».
11. Сохраните полученные результаты.
12. Сделайте выводы об эффективности построенного дерева.
Задание №2 1. Запустите Deductor.
2. Импортируйте набор данных из текстового файла, который вы создали в лабораторной работе №2. Убедитесь, что в файле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования.
3. Запустите мастер обработки.
4. В открывшемся окне выберите пункт «Дерево решений».
Нажмите «Далее».
5. В открывшемся окне обозначьте поле, которое у Вас было це- левым в лабораторной работе №2, как выходное, а остальные
– как входные. Нажмите «Далее».
6. На следующем этапе производится разбиение исходного мно- жества на обучающее и тестовое. Настройки не изменяйте.
Нажмите «Далее».
7. На следующем этапе производится настройка параметров обу- чения дерева. Настройки не изменяйте. Нажмите «Далее».
8. На следующем этапе производится настройка способа обуче- ния дерева. Настройки не изменяйте. Нажмите «Далее».
9. На следующем этапе нажмите «Пуск». Когда процесс будет завершён, нажмите «Далее».