Файл: Метод_лаб_2011_ТПР_стац_pdf.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 03.12.2020

Просмотров: 516

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

31 

 

Категория 

Некоторые факторы категории 

Регистрационная информация  

Регистрация, срок проживания по данному 
адресу ...  

Информация о занятости  

Специальность, сфера деятельности 
предприятия ...  

Информация о финансовом 
положении  

Зарплата, другие начисления и удержания  

Информация по обеспеченности  

Имущество, ценные бумаги...  

Информация о кредитной истории  

Количество прошлых кредитов, текущие 
обязательства ...  

Тем  самым  должно  достигаться  и  отнесение  потенциального  заемщика  к 

способным  вернуть  кредит  или  не  способным.  При  наличии  статистических 
данных  (кредитной  истории)  модель  классификации  строится  с  использованием 
дерева решений.  

Для выполнения заданий понадобятся дополнительные обработчики: 

 

 

 

группировка; 

 

сортировка; 

и визуализаторы: 

 

карта Кохонена; 

 

дерево решений; 

 

правила; 

 

таблица сопряженности; 

 

«Что-Если»; 

 

диаграмма.  

Обработчик и визуализатор «Дерево решений» 

Построение  дерева  решений  производится  в  процессе  обучения.  Настройки 

параметров обучения можно изменить в окне мастера (рис. 1.1)  


background image

32 

 

 

Рис. 3.1. Параметры обучения обработчика «Дерево решений»  

Параметры обучения дерева решений следующие:  

Минимальное  количество  примеров,  при  котором  будет  создан  новый  узел. 

Задается  минимальное  количество  примеров,  которое  возможно  в  узле.  Если 
примеров,  которые  попадают  в  данный  узел,  будет  меньше  заданного  -  узел 
считается  листом  (т.е.  дальнейшее  ветвление  прекращается).  Чем  больше  этот 
параметр, тем менее ветвистым получается дерево.  

Строить  дерево  с  более  достоверными  правилами  в  ущерб  сложности

Включает  специальный  алгоритм,  который,  усложняя  структуру  дерева, 
увеличивает  достоверность  результатов  классификации.  При  этом  дерево 
получается, как правило, более ветвистым. 

Уровень доверия, используемый при отсечении узлов дерева.

  Значение  этого 

параметра  задается  в  процентах  и  должно  лежать  в  пределах  от  0  до  100.  Чем 
больше  уровень  доверия,  тем  более  ветвистым  получается  дерево,  и, 
соответственно,  чем  меньше  уровень  доверия,  тем  больше  узлов  будет  отсечено 
при его построении.  

Для  просмотра  дерево  решений  предназначен  одноименный  визуализатор 

(рис. 3.2).  

 

Рис. 3.2. Пример дерева решений 


background image

33 

 

Обработчик «Группировка» 

Группировка позволяет объединять записи по полям -измерениям, агрегируя 

данные  в  полях-фактах  для  дальнейшего  анализа.  Для  настройки  группировки 
требуется  указать,  какие  поля  являются  измерениями,  а  какие  –  фактами.  Для 
каждого  факта  требуется  указать  функцию  агрегации.  Это  может  быть  сумма, 
среднее,  максимум,  минимум,  количество.  При  выполнении  группировки  в 
таблице  данных  ищутся  записи  с  одинаковыми  полями-измерениями.  К  полям-
фактам  таких  записей  применяются  функции  агрегации.  Группировка 
осуществляется  и  при  построении  OLAP-куба.  Однако,  в  отличие  от  куба,  при 
использовании 

обработчика 

«Группировка» 

формируется 

таблица 

со 

сгруппированными значениями, которую можно в дальнейшем использовать для 
обработки другими алгоритмами (обработчиками) Deductor.  

Обработчик «Сортировка» 

С  помощью  сортировки  можно  изменять  порядок  следования  записей  в 

исходной выборке данных в соответствии с заданным пользователем алгоритмом 
сортировки.  Результатом  выполнения  сортировки  будет  новый  набор  данных, 
записи  в  которой  будут  следовать  в  соответствии  с  заданными  параметрами 
сортировки.  

В  окне  настройки  параметров  сортировки  представлен  список  условий 

сортировки, в котором содержатся две графы:  

 

Имя поля

 - содержит имя полей, по которым следует выполнить сортировку.  

 

Порядок  сортировки

  -  содержит  порядок  сортировки  данных  в 

соответствующем поле -по возрастанию или по убыванию. 

Визуализатор «Карта Кохонена» 

Данный  визуализатор  обеспечивает  просмотр  построенной  в  результате 

обучения  самоорганизующейся  карты,  которую  можно  представить  в  виде 
слоеного  пирога,  каждый  слой  которого  представляет  собой  раскраску, 
порожденную  одной  из  компонент  исходных  данных.  Полученный  набор 
раскрасок  может  использоваться  для  анализа  закономерностей,  имеющихся 
между компонентами набора данных (рис. 3.3).  


background image

34 

 

 

Рис. 3.3 Самоорганизующиеся карты 

Эксперт,  последовательно  просматривая  карты,  выдвигает  гипотезы, 

объясняющие  объединение  прецедентов  в  отдельные  группы  (кластеры). 
Например, карты на рис. 3.3 подтверждают гипотезу, что кредиты на длительный 
срок востребованы исключительно у заемщиков молодого возраста.  

Визуализатор «Правила» 

Данный  визуализатор  является  альтернативой  дереву  решений  –  правила 

отображаются не в иерархичном, а обычном продукционном виде «Если-то».  

Визуализатор «Таблица сопряженности» 

Для  того  чтобы  оценить  качество  классификации  данных,  обычно 

используют  таблицу  сопряженности.  Для  решения  задачи  классификации 
используется таблица, в которой уже есть выходной столбец, содержащий класс 
объекта. После применения алгоритма добавляется еще один столбец с выходным 
полем,  но  его  значения  уже  вычисляются,  используя  построенную  модель.  При 
этом значения в столбцах могут отличаться. Чем больше таких отличий, тем хуже 
построенная  модель  классификации.  Ниже  изображен  пример  таблицы 
сопряженности.  
 

Классифицировано 

Фактически  

Класс 1   Класс 2   Класс 3   Итого  

Класс 1  

239  

 

 

239  

Класс 2  

7  

10  

 

17  

Класс 3  

4  

1  

17  

22  


background image

35 

 

Итого  

250  

11  

17  

278  

В данном примере три класса, поэтому таблица сопряженности имеет размер 

3  на  3  ячейки.  На  главной  диагонали  показано  количество  правильно 
классифицированных  примеров  (зеленый  цвет).  Красным  цветом  выделены 
неправильно распознанные примеры.  

Таблицу  сопряженности  удобно  применять  для  оценки  качества  модели, 

построенной  с  помощью  обработчика  «Дерево  решений».  Если  количество 
неправильно  классифицированных  примеров  довольно  велико,  это  говорит  о 
плохо  построенной  модели  и  нужно  либо  изменить  параметры  построения 
модели,  либо  увеличить  обучающую  выборку,  либо  изменить  набор  входных 
полей. Если же количество неправильно классифицированных примеров мало, это 
может  быть  почвой  для  дальнейшего  анализа  и  говорит  о  том,  что  пример 
является  аномалией.  В  этом  случае  можно  посмотреть,  чем  же  характеризуются 
такие примеры и возможно добавить новый класс для отнесения этих примеров.  

Визуализатор «Что-если» 

Анализ  по  методу  «Что-если»  позволяет  исследовать  как  будет  вести  себя 

построенная  система  обработки  при  подаче  на  ее  вход  тех  или  иных  данных. 
Проще  говоря,  проводится  эксперимент,  в  котором,  изменяя  значения  входных 
полей  обучающей  или  рабочей  выборки  нейронной  сети  или  дерева  решений, 
пользователь наблюдает за изменением значений на выходе (рис. 3.4).  

 

Рис. 3.4. Таблица «Что-если» 

С использованием диаграммы «Что-если» можно решать обратную задачу  – 

то  есть  визуально  наблюдать,  при  каких  значениях  входных  переменных  будет 
достигнуто желаемое выходное значение (рис. 3.5).