ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 29.07.2021
Просмотров: 297
Скачиваний: 1
СОДЕРЖАНИЕ
Интеллектуальный анализ данных, определение, основные особенности. Классификация задач Data Mining
Практическое применение Data Mining – прикладные задачи для банков, используемые методы.
Этапы методики извлечения знаний. Особенности и значимость каждого этапа.
Платформа Deductor. Возможности, архитектура, решаемые задачи.
Кластерный анализ. Задача поиска конечного числа категорий, разделяющих множество примеров на непересекающиеся подмножества. Элементы данных подмножеств должны быть «похожи» в заданном смысле внутри подмножества и отличаться от элементов других подмножеств.
Агрегирование (суммаризация). Задача поиска компактного описания подмножества данных. (напр. задача отыскания вектора средних значений и матрицы отклонений для набора данных; поиск функциональных зависимостей между переменными или ассоциативных правил).
Моделирование зависимостей. Задача поиска значимых зависимостей между переменными. Обычно разделяется на два уровня: структурный, дающий графическое представление зависимостей, и количественный, присваивающий атрибутам значений, играющих роль сильных зависимостей, определенных на структурном уровне. Примером данной задачи может служить Алгебраическая Байесовская Сеть.
Обнаружение отклонений. Целью задачи является поиск наиболее значимых в заданном смысле изменений в данных по сравнению со средними, нормативными показателями.
Практическое применение Data Mining – прикладные задачи для банков, используемые методы.
Классическим примером применения Data Mining на практике является решение проблемы о возможной некредитоспособности клиентов банка. Этот вопрос, тревожащий любого сотрудника кредитного отдела банка, можно разрешить и интуитивно. Если образ клиента в сознании банковского служащего соответствует его представлению о кредитоспособном клиенте, то кредит выдавать можно, иначе - отказать. По схожей схеме, но более продуктивно и полностью автоматически, работают установленные в тысячах американских банках системы поддержки принятия решений (Decision System Support) со встроенной функциональностью Data Mining. Лишенные субъективной предвзятости, они опираются в своей работе только на историческую базу данных банка, где записывается детальная информация о каждом клиенте и, в конечном итоге, факт его кредитоспособности. Классификационные алгоритмы Data Mining обрабатывают эти данные и, полученные результаты, используются далее для принятия решений.
В страховании, также как банковском деле и маркетинге, возникает задача обработки больших объемов информации для определения типичных групп (профилей) клиентов. Эта информация используется для того, чтобы предлагать определенные услуги страхования с наименьшим для компании риском и, возможно, с пользой для клиента. Также, с помощью технологий Data Mining решается такая часто встречающаяся в страховании задача, как определение случаев мошенничества(fraud detection).
В медицинских и биологических исследованиях, равно как и в практической медицине, спектр решаемых задач настолько широк, что возможно использование любых методологий Data Mining. Примером может служить построение диагностической системы или исследование эффективности хирургического вмешательства.
Задачи кластеризации. Постановка задачи, базовые алгоритмы решения, достоинства и недостатки. Применение задачи кластеризации в банковской сфере.
Кластеризация - Разбиение множества документов к некоторой категории
Методы:
Декомпозиция (разделение, k-клатеризация)
В этих методах изначально каждый объект связан только с одной группой-кластером
Иерархическая кластеризация
В этом случае каждая группа большего размера состоит из групп меньшего размера. Группы (кластеры) иерархически связаны
-
Классификация – это отнесение объекта к одному из заранее известных классов (множеств, типов и т.д.)
-
Кластеризация – это разделение множества исходных объектов на классы (кластеры), число которых заранее не определено.
Кластеризацию используют, когда отсутствуют априорные сведения относительно классов, к которым можно отнести объекты исследуемого набора данных, либо когда число объектов велико, что затрудняет их ручной анализ.
Постановка задачи кластеризации сложна и неоднозначна, так как:
-
оптимальное количество кластеров в общем случае неизвестно;
-
выбор меры «похожести» или близости свойств объектов между собой, как и критерия качества кластеризации, часто носит субъективный характер
Цели:
-
Изучение данных. Разбиение множества объектов на группы помогает выявить
-
внутренние закономерности, увеличить наглядность представления данных,
-
выдвинуть новые гипотезы, понять, насколько информативны свойства объектов.
-
-
Облегчение анализа.
-
При помощи кластеризации можно упростить дальнейшую
-
обработку данных и построение моделей: каждый кластер обрабатывается индивидуально, и модель создается для каждого кластера в отдельности.
-
В этом смысле кластеризация может рассматриваться как подготовительный этап перед решением других задач Data Mining: классификации, регрессии, ассоциации, последовательных шаблонов.
-
-
Сжатие данных.
-
В случае, когда данные имеют большой объем, кластеризация позволяет сократить объем хранимых данных, оставив по одному наиболее типичному представителю от каждого кластера.
-
-
Прогнозирование.
-
Кластеры используются не только для компактного представления
-
имеющихся объектов, но и для распознавания новых. Каждый новый объект относится к тому кластеру, присоединение к которому наилучшим образом удовлетворяет критерию качества кластеризации. Значит, можно прогнозировать поведение объекта, предположив, что оно будет схожим с поведением других объектов кластера.
-
Обнаружение аномалий.
-
Кластеризация применяется для выделения нетипичных объектов. Эту задачу также называют обнаружением аномалий (outlier detection).
-
Интерес здесь представляют кластеры (группы), в которые попадает крайне мало, скажем один-три, объектов
-
Цель кластеризации – построить оптимальное разбиение объектов на группы:
-
разбить N объектов на k кластеров;
Алгоритмы:
-
Иерархические алгоритмы
-
Минимальное покрывающее дерево
-
k-Means алгоритм (алгоритм k-средних)
-
Метод ближайшего соседа
-
Алгоритмы нечеткой кластеризации
-
Применение нейронных сетей
-
Генетические алгоритмы
-
Метод закалки
Применение:
-
Анализ данных (Data mining)
-
Упрощение работы с информацией
-
Визуализация данных
-
-
Группировка и распознавание объектов
-
Распознавание образов
-
Группировка объектов
-
-
Извлечение и поиск информации
-
Построение удобных классификаторов
-
Этапы методики извлечения знаний. Особенности и значимость каждого этапа.
Несмотря на большое количество разнообразных бизнес-задач почти все они решаются по единой методике. Эта методика называется Knowledge Discovery in Databases.
Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Данная методика не зависит от предметной области, это набор атомарных операций, комбинируя которые можно получить нужное решение.
Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. На этом шаге необходимо активное участие эксперта для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборок.
Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.
Реальные данные для анализа редко бывают хорошего качества. Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных.
К задачам очистки относятся:
-
Заполнение пропусков и редактирование аномалий
-
Сглаживание, очистка от шумов
-
Редактирование дубликатов и противоречий
-
Устранение незначащих факторов
Трансформация данных – последний этап перед, собственно, анализом. Различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна.
Задачи трансформации данных:
-
Скользящее окно
-
Приведение типов
-
Выделение временных интервалов
-
Преобразование непрерывных значений в дискретные и наоборот
-
Сортировка, группировка, агрегация
Data Mining – это процесс обнаружения в «сырых» данных, ранее неизвестных и нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.
Задачи, решаемые методами Data Mining:
-
Классификация – это отнесение объектов к одному из заранее известных классов.
-
Регрессия – установление зависимости непрерывных выходных переменных от входных значений.
-
Кластеризация – объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры.
-
Ассоциация – нахождение зависимости, что из события X следует событие Y.
-
Последовательность – установление зависимостей между связанными во времени событиями.
Можно говорить еще и о задаче анализа отклонений – выявление наиболее нехарактерных шаблонов.
В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду.
Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания эксперта.
Полученные модели являются по сути формализованными знаниями эксперта, поэтому их можно тиражировать.
Платформа Deductor. Возможности, архитектура, решаемые задачи.
Deductor – это аналитическая
платформа, основа для создания законченных
прикладных решений в области анализа
данных. Реализованные в Deductor
технологии позволяют на базе единой
архитектуры пройти все этапы построения
аналитической системы: от консолидации
данных до построения моделей и визуализации
полученных результатов.
Аналитическая платформа Deductor создавалась как система, реализующая описанную выше схему анализа. Она включает в себя хранилище данных и большой набор методов построения моделей.
Любые данные, полученные из хранилища данных, иного источника или в результате обработки, можно отобразить при помощи большого набора визуализаторов. Универсальные методы анализа, реализованные в Deductor, позволяют применять его для решения самого широкого спектра задач.
Подавляющее большинство бизнес-задач сводится к комбинированию описанных методов. Фактически, ранее были описаны базовые блоки, из которых собирается практически любое бизнес-решение:
-
План-факторный анализ – визуализация данных
-
Прогнозирование – задача регрессии
-
Управление рисками – регрессия, кластеризация и классификация
-
Стимулирование спроса – кластеризация, ассоциация
-
Оценка эластичности спроса – регрессия
-
Выявление предпочтений клиентов – последовательность, кластеризация…