ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 30.11.2023
Просмотров: 206
Скачиваний: 8
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
14
Рис. 9
Список правил
Список правил предваряется информацией о заданных парамет- рах поиска. Здесь на примере данных по ультразвуковой диагностике почек, как видим, говорится, что общее число обработанных записей
(объектов) составляет 74, минимальная вероятность правил if-then и if- then-NOT равны по 0.8, минимальное количество объектов для правил
– 10. Затем подтверждается, что правила находятся для переменной
Diagnosis, конкретно для значения этой переменной, равного 2 (если в пункте 2 программа у вас «вылетала», то в строке Predicted Value будет указано: between 1,00 and 2,00). Также указывается, что стоимость ошибок в виде пропусков и ложных тревог составляет 1, а средняя ве- роятность (априорная вероятность) прогнозируемого значения пере- менной равна 0.5
Далее система выдаёт следующий блок общей информации об обнаруженных правилах:
15
ANALYSIS OF THE RULES EXPLANATORY POWER
Decision point: Predict between 1,00 and 2,00 when conclusive probabil- ity is more than 0,572
Number of misses: 3
Number of false alarms: 4
Total number of errors: 7
Total cost of errors: 7
Success rate when predicting between 1,00 and 2,00 : 0,889
Success rate when predicting NOT between 1,00 and 2,00 : 0,903
Number of records with no relevant rules : 7
Average cost (per record): 0,104
Expected average cost (per record) : 0,500
Improvement Factor: 4,786
Из приведённого блока можно почерпнуть сведения о значениях некоторых служебных параметров - Decision point (точка решения),
Average cost (средние потери (на запись)), Expected average cost (ожи- даемые средние потери) и Improvement Factor (выигрыш), представля- ющий собой отношение ожидаемых средних потерь к реальным поте- рям на запись.
Точка решения – когда WizWhy формирует прогноз, то вычисля-
ется вероятность того, что значение зависимой переменной в анали-
зируемой записи равно «1» (допустим «1» – это спрогнозированное
значение зависимой переменной). Эта вероятность называется ито-
говой (conclusive). Если значение итоговой вероятности больше зна-
чения точки решения, то прогнозируемое значении = 1, а если меньше,
то не равно 1.
Средние потери на запись – общая сумма ошибок, поделённая на
количество записей в исследуемом массиве данных.
Ожидаемые средние потери есть результат формирования про-
гноза только на основании частоты появления прогнозируемого зна-
чения, стоимости пропуска объекта, стоимости ложной тревоги.
Другими словами – это ожидаемые средние потери при условии, что
неизвестно ни одного правила. Например, пусть частота появления
прогнозируемого значения = 15%, стоимость пропуска объекта = 2, а
стоимость ложной тревоги = 1. В этом случае, если в анализируемых
записях не найдено ни одного правила, то WizWhy формирует следую-
щий прогноз: «прогнозируемое значение зависимой переменной не
встречается ни в одной записи из исследуемого набора». В таком слу-
чае (для прогноза такого вида) средние потери на запись называются
16
ожидаемыми средними потерями. Для данного примера они будут
равны 0.3 (15% (или, другим словами, 0.15) умножить на 2 и умно-
жить на 1 = 0.3).
Кроме того, в блоке содержатся сведения о прогнозирующей спо- собности все совокупности обнаруженных правил – количество про- пусков при прогнозировании (Number of misses), число ложных тревог
(Number of false alarms), общее количество ошибок (Total number of errors), общие потери (Total cost of errors), вероятность успешного про- гнозирования для класса 2 (Success rate when predicting 2), вероятность успешного прогнозирования альтернативного класса (Success rate when predicting NOT 2) и количество объектов, не охваченных выделенными правилами (Number of records with no relevant rules).
Список правил состоит из правил, упорядоченных по заданному критерию. В данных по ультразвуковой диагностике почек при уста- новленных параметрах система WizWhy обнаружила 19 правил. Рас- смотрим (для примера) правило № 5:
5)
If LR is R and Speed is 16,30 ... 41,50 (average = 25,44 ) and Index is 0,70 ... 0,80 (average = 0,72 )
Then
Diagnosis is not between 1,00 and 2,00
Rule's probability: 1,000
The rule exists in 10 records.
Significance Level: Error probability < 0,001
Positive Examples (records' serial numbers):
3, 61, 63, 64, 65, 66, 67, 72, 73, 74
Это правило представляет собой конъюнкцию трёх элементарных высказываний. Первое - LR is R - говорит о том, что правило относит- ся только к правой почке. Второе - Speed is 16,30 ... 41,50 – определяет диапазон значений для средней скорости кровотока, и третье - Index is
0,70 ... 0,80 – описывает интервал значений индекса резистентности.
Высказывание Diagnosis is not between 1,00 and 2,00 (или Diagnosis is
not 2 – если у вас программа не «вылетала») означает, что правило характерно для объектов, не имеющих диагноз «множественные ки- сты».
Запись Rule's probability: 1,000 означает, что точность правила в данном случае равна 1. Следующая запись - The rule exists in 10 records
– характеризует объём множества объектов, для которых справедливо
17 рассматриваемое правило, а другая запись - Significance Level: Error
probability < 0,001 – касается статистической оценки уровня значи- мости полученного правила (как видим, доверие к правилу превышает
90%). Последняя запись - Positive Examples (records' serial numbers) – означает «положительные» примеры, которые затем представлены как номера записей (объектов) в наборе данных.
Система WizWhy предоставляет возможность визуализации по- лученного правила. Для этого нужно щёлкнуть на правиле левой кноп- кой мыши и затем с помощью правой кнопки вызвать контекстное ме- ню, в котором выбрать диаграмму правила Rule Chart (рис. 10).
Рис.10. Диаграмма выделенного правила № 5
Эта диаграмма иллюстрирует отдельные компоненты правила и даёт графическое отображение совокупного взаимодействия перемен- ных.
Содержание записи в деталях
Окно «Содержание записи в деталях» позволяет просмотреть зна- чение признаков для каждого объекта. Для этого требуется ввести но- мер объекта в поле Record и нажать клавишу Enter. Пример для объек- та № 25 приведён на рис. 11.
Другая возможность состоит в том, что если дважды щёлкнуть левой кнопкой мыши на номере объекта в списке правил, который там приведён в качестве положительного или отрицательного примера, соответствующие значения признаков отобразятся в рассматриваемом окне. При этом целевая переменная будет отмечена специальным
18 значком красного цвета, а все остальные – значками зелёного цвета.
Кроме того, на значках, расположенных сразу слева от названия при- знаков, указываются типы данных признаков.
Рис. 11
Индекс признака
В окне «Индекс признака», расположенным в правом нижнем уг- лу, отображаются порядковые номера правил, в которых появляются те или иные признаки (рис. 12).
Рис. 12.
19
Можно просмотреть всё окно, используя прокрутку. Также в си- стеме предусмотрена другая возможность – если в списке правил два- жды щёлкнуть на каком-либо признаке в любом из правил, то этот признак будет автоматически выделен в окне «Индекс признака». По представляемой информации удобно выносить суждения о полезности признаков (о коэффициенте использования признаков) для классифи- кации данных и прогнозирования. В свою очередь, если дважды щёлк- нуть в окне «Индекс признака» по любому номеру правила, то это пра- вило моментально будет выделено в списке правил.
Распечатка и экспорт правил
Для распечатки правил или их экспорта в другой файл требуется нажать соответствующую кнопку печати на главном окне WizWhy – на экране появится специальное диалоговое окно Print Rules (рис. 13).
Рис. 13
В поле Print to указывается адрес, по которому направляется ре- зультирующая информация. В поле Print/Export range указывается диа- пазон порядковых номеров правил, которые должны быть распечатаны или экспортированы. В нижней части окна диалога проставляются по необходимости флажки для распечатки или экспорта введения к спис- ку правил Print Introduction и содержимого окна «Индекс признака».
Кроме того, в поле Heading моно ввести заголовок для результирую- щей информации.
Отчёт о трендах
20
Отчёт о трендах представляет результаты сегментации отдельных признаков. Окно данного отчёта разделено на три области (рис. 14).
В области, расположенной в левом верхнем углу, мы задаём ана- лизируемый признак (Field to be analyzed). Здесь можно не только вы- бирать требуемый признак, но и сортировать признаки по какому-либо критерию (в алфавитном порядке, по номеру поля, по информативно- сти).
Другие две области предназначены для отражения отношений между значениями признака и зависимой переменной. В верхней пра- вой области окна отчёта приводятся статистические характеристики сегментов выделенного признака. В нижней области отчёта приводит- ся графическая иллюстрация информативности каждого сегмента. На графике по горизонтальной оси располагаются сегменты, на которые выбранный признак автоматически разбивается системой WizWhy. По вертикальной оси откладывается отношение количества объектов класса if-then к общему количеству объектов, попадающих в сегмент.
Таким образом, высота столбиков на графике отражает информатив- ность сегментов. Если столбик выше синей горизонтальной черты, значит, в данный сегмент чаще попадают объекты класса if-then, а если ниже горизонтальной черты – класса if-then-NOT. В свою очередь, ши- рина столбиков пропорциональна количеству объектов, относящихся к данному сегменту.
Отчёт о неожиданных правилах
В системе WixWhy введено представление о так называемых неожиданных правилах (unexpected rules). Под неожиданными пони- маются правила в виде конъюнкции двух и более простых высказыва- ний, комбинация которых даёт точность и полноту прогноза выше, чем это можно было бы ожидать при независимости простых высказыва- ний. Это представление, по-видимому, имеет цель дополнительно за- интриговать конечного пользователя возможностью открывать в дан- ных нетривиальные закономерности.
В нашем случае система не обнаружила таких неожиданных пра- вил. Однако можно попытаться это сделать, если мы изменим задание на поиск правил. Например, уменьшим минимальную вероятность if- then- и if-then-NOT-правил с 80 до 70% в окне Rule Parameters. Проде- лайте указанную операцию и нажмите кнопку Issue Rules – теперь си- стема обнаружит в данных по ультразвуковой диагностике 38 правил, и среди них окажется 4 неожиданных, отчёт о которых выдаётся в спе- циальном окне (рис. 15). Окно отчёта о неожиданных правилах разде-
21 лено на три секции. В левой верхней секции отображается в стандарт- ной форме найденное неожиданное правило. Правая верхняя секция содержит информацию об элементах, из которых составлено неожи- данное правило. И наконец, нижняя секция предназначена для сорти- ровки неожиданных правил и графического представления результа- тов.
Рис. 14
Так, в нашем случае первое неожиданное правило, изображённое на рис. 15, расшифровывается следующим образом: если (пол жен- ский) и (ширина почки в интервале от 61 до 75) и (ускорение кровото- ка от 148 до 275), то диагноз (множественные кисты). Данное правило вместе с рассчитанными характеристиками приведено ниже. Здесь по сравнению с ранее рассмотренными характеристиками выдаются две новые – уровень неожиданности (Level of Unlikelihood) и ожидавшаяся вероятность правила (Expected rule probability) Как видно, за счёт вза- имосвязи элементов правила точность целого правила составила 0,999 и оказалась значительно выше ожидавшейся (0,81).
22
Рис. 15
Unexpected Rule # 1 (out of 4)
Level of Unlikelihood : 0,999 1)
If Sex is F and Width is 61,00 ... 77,00 (average = 67,30 ) and Accel is 148,00 ... 275,00 (average = 216,10 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 1,000
The rule exists in 10 records.
Significance Level: Error probability < 0,001
Expected rule probability : 0,810
Actual minus Expected probability: 0,190
В правой верхней секции приводится статистический разбор ком- понентов, из которых состоит неожиданное правило. Оно состоит из двух частей (табл. 1)
Базисные правила (Basic Rules) представляют собой комбинации простых событий, входящих в неожиданное правило.
23
Табл.1
Basic Rules
Basic Trends
1)If Width is 59,00 ... 101,00 (average =
69,00 ) and Accel is 148,00 ... 279,00 (aver- age = 214,11 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,778
The rule exists in 14 records.
Significance Level: Error probabil-
ity < 0,01 2)If Sex is F and Accel is 148,00 ... 275,00
(average = 222,14 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,810
The rule exists in 17 records.
Significance Level: Error probabil-
ity < 0,001 3)
If Sex is F and Width is 60,00 ... 85,00 (average
= 68,29 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,706
The rule exists in 12 records.
Significance Level: Error probabil-
ity < 0,1 4) If Accel is 148,00 ... 279,00 (average =
217,18 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,706
The rule exists in 24 records.
Significance Level: Error
probability < 0,01 5)
If Sex is F
Then
Diagnosis is be- tween 1,00 and 2,00
Trend's probabil-
ity : 0,595
The trend exists in
25 records.
6)
If Width is 59,00
... 101,00
Then
Diagnosis is be- tween 1,00 and 2,00
Trend's probabil-
ity : 0,556
The trend exists in
20 records.
24
Базисные тренды (Basic Trends) – это статистический разбор сег- ментов анализируемых переменных, составляющих собственно логи- ческие события.
Как видим из таблицы, все компоненты неожиданного правила по отдельности имеют точность существенно ниже 1 – самое высокое значение точности наблюдается у базисного правила №2.
Нижняя секция отчёта о неожиданных правилах разделена на две части. В левой части располагаются элементы управления для сорти- ровки этих правил. По умолчанию правила проранжированы по вели- чине разности между реальной и ожидаемой точностями правил. Если установить переключатель в поле Field и выбрать из списка какой- либо признак, то будут отображаться только те неожиданные правила, в которых встречается указанный признак. В свою очередь, в поле
Type можно выбрать один из трёх типов фильтров правил: All (все правила), if-then-правила и if-then-NOT.
В правой части нижней секции отчёта о неожиданных правилах даётся графическое представление характеристик правил и их состав- ляющих. Первый слева столбик относится к найденному неожиданно- му правилу – его высота равна точности, а ширина пропорциональна количеству покрываемых объектов. Следующий столбик отображает ожидавшиеся характеристики правила, а остальные столбики соответ- ствуют описанным выше базисным правилам и трендам. Если щёлк- нуть левой кнопкой мыши по какому-либо столбику, то система
WizWhy автоматически изменит содержание верхних окон отчёта о неожиданных правилах. Можно также щёлкнуть правой кнопкой мы- ши – появляется контекстное меню, в котором можно выбрать иллю- страцию в виде диаграммы правила (Rule chart).
Прогнозирование на основе полученных правил
В системе WizWhy предусмотрены две возможности использова- ния обнаруженных правил для предсказания значений целевого пока- зателя на новом материале.
Первая возможность заключается в ручном вводе значений при- знаков и обработке нового одиночного объекта (записи). Она реализу- ется следующим образом.
Нажмите кнопку Predict online – на экран выдаётся диалоговое окно для ручного ввода значений признаков (рис. 16).
25
Рис. 16
После заполнения окошек предложенной таблицы (здесь возмож- ны пропуски) нажмите кнопку Issue Report – система создаёт отчёт, в котором подробно описывает как конечный результат предсказания, так и характеристики каждого отдельного правила, использованных для получения прогноза. Пример отчёта представлен ниже:
WIZWHY PREDICTION REPORT
File Name: G:\WIZWHY 3.01 DEMO\USR.txt
Condition Fields:
Age = 50,00
Width = 60,00
Speed = 15,00
Index = 1,00
Accel = 1,00
Dependent Variable: Diagnosis
Subject for Prediction: Diagnosis is between 1,00 and 2,00
Prediction's significance level: Error probability = 0,000
Primary Prediction's probability: 0,500
Conclusive Prediction's probability: 0,884
Prediction: between 1,00 and 2,00
Relevant rules: