Файл: Методики оперативного и интеллектуального анализа.pdf

ВУЗ: Не указан

Категория: Реферат

Дисциплина: Не указана

Добавлен: 05.07.2023

Просмотров: 243

Скачиваний: 5

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Промышленное производство

Промышленное производство создает идеальные условия для применения технологий Data Mining. Причина — в самой природе технологического про­цесса, который должен быть воспроизводимым и контролируемым.

Медицина

В медицинских и биологических исследованиях, равно как и в практической медицине, спектр решаемых задач настолько широк, что возможно использо­вание любых методологий Data Mining. Примером может служить построе­ние диагностической системы или исследование эффективности хирургиче­ского вмешательства.

Банковское дело

Классическим примером применения Data Mining на практике является решение проблемы о возможной некредитоспособности клиентов банка. Data Mining обрабатывают персональные данные, и полученные результаты используются далее для принятия решений.

Страховой бизнес

В страховании, также как в банковском деле и маркетинге, возникает задача обработки больших объемов информации для определения типичных групп (профилей) клиентов. Эта информация используется для того, чтобы предла­гать определенные услуги страхования с наименьшим для компании риском и, возможно, с пользой для клиента.

Другие области применения

Data Mining может применяться практически везде, где возникает задача ав­томатического анализа данных. В качестве примера приведем такие популяр­ные направления, как анализ и последуюшая фильтрация спама. а также раз­работка так называемых виртуальных собеседников.

Базовые методы

К базовым методам Data Mining принято относить, прежде всего, алгоритмы, основанные на переборе. Простой перебор всех исследуемых объектов требу­ет 0(2'v) операций, где N— количество объектов. Следовательно, с увеличе­нием количества данных объем вычислений растет экспоненциально, что при большом объеме делает решение любой задачи таким методом практически невозможным.

Для сокращения вычислительной сложности в таких алгоритмах, как прави­ло, используют разного вида эвристики, приводящие к сокращению перебора. Оптимизация подобных алгоритмов сводится к приведению зависимости ко­личества операций от количества исследуемых данных к функции линейного вида. В то же время, зависимость от количества атрибутов, как правило, оста­ется экспоненциальной. При условии, что их немного (в подавляющем боль­шинстве случаев их значительно меньше, чем данных), такая зависимость является приемлемой.


Основным достоинством данных алгоритмов является их простота, как с точ­ки зрения понимания, так и реализации. К недостаткам можно отнести отсут­ствие формальной теории, на основании которой строятся такие алгоритмы, а следовательно, и сложности, связанные с их исследованием и развитием.

К базовым методам Data Mining можно отнести также и подходы, исполь­зующие элементы теории статистики. В связи с тем, что Data Mining является развитием статистики, таких методов достаточно много. Их основная идея сводится к корреляционному, регрессионному и другим видам статистиче­ского анализа. Главным недостатком является усреднение значений, что при­водит к потере информативности данных. Это в свою очередь приводит к уменьшению количества добываемых знаний.

Основные этапы анализа

Для обнаружения знаний в данных недостаточно просто применить методы Data Mining, хотя, безусловно, этот этап является основным в процессе ин­теллектуального анализа. Весь процесс состоит из нескольких этапов. Рас­смотрим основные из них, чтобы продемонстрировать, что без специальной подготовки аналитика методы Data Mining сами по себе не решают сущест­вующих проблем. Итак, весь процесс можно разбить на следующие эта­пы:

  • Понимание и формулировка задачи анализа;
  • Подготовка данных для автоматизированного анализа (препроцессинг); О применение методов Data Mining и построение моделей;
  • О проверка построенных моделей;
  • Интерпретация моделей человеком.

На первом этапе выполняется осмысление поставленной задачи и уточнение целей, которые должны быть достигнуты методами Data Mining. Важно пра­вильно сформулировать цели и выбрать необходимые для их достижения ме­тоды, т. к. от этого зависит дальнейшая эффективность всего процесса.

Второй этап состоит в приведении данных к форме, пригодной для примене­ния конкретных методов Data Mining. Данный процесс далее будет описан более подробно, здесь заметим только, что вид преобразований, совершае­мых над данными, во многом зависит от используемых методов, выбранных на предыдущем этапе.

Третий этап — это собственно применение методов Data Mining. Сценарии этого применения могут быть самыми различными и могут включать слож­ную комбинацию разных методов, особенно если используемые методы по­зволяют проанализировать данные с разных точек зрения.

Следующий этап — проверка построенных моделей. Очень простой и часто используемый способ заключается в том, что все имеющиеся данные, кото­рые необходимо анализировать, разбиваются на две группы. Как правило, одна из них большего размера, другая — меньшего. На большей группе, при­меняя те или иные методы Data Mining, получают модели, а на меньшей — проверяют их. По разнице в точности между тестовой и обучающей группами можно судить об адекватности построенной модели.


Последний этап — интерпретация полученных моделей человеком в целях их использования для принятия решений, добавление получившихся правил и зависимостей в базы знаний и т. д. Этот этап часто подразумевает использо­вание методов, находящихся на стыке технологии Data Mining и технологии экспертных систем. От того, насколько эффективным он будет, в значитель­ной степени зависит успех решения поставленной задачи.

Этим этапом завершается цикл Data Mining. Окончательная оценка ценности добытого нового знания выходит за рамки анализа, автоматизированного или традиционного, и может быть проведена только после претворения в жизнь решения, принятого на основе добытого знания, после проверки нового зна­ния практикой. Исследование достигнутых практических результатов завер­шает оценку ценности добытого средствами Data Mining нового знания.

Средства Data Mining

В настоящее время технология Data Mining представлена целым рядом ком­мерческих и свободно распространяемых программных продуктов. Доста­точно полный и регулярно обновляемый список этих продуктов можно найти на сайте www.kdnuggets.com, посвященном Data Mining. Классифицировать программные продукты Data Mining можно по тем же принципам, что поло­жены в основу классификации самой технологии. Однако подобная класси­фикация не будет иметь практической ценности. Вследствие высокой конку­ренции на рынке и стремления к полноте технических решений многие из продуктов Data Mining охватывают буквально все аспекты применения ана­литических технологий. Поэтому целесообразнее классифицировать продук­ты Data Mining по тому, каким образом они реализованы и, соответственно, какой потенциал для интеграции они предоставляют. Очевидно, что и это ус­ловность, поскольку такой критерий не позволяет очертить четкие границы между продуктами. Однако у подобной классификации есть одно несомнен­ное преимущество. Она позволяет быстро принять решение о выборе того или иного готового решения при инициализации проектов в области анализа данных, разработки систем поддержки принятия решений, создания храни­лищ данных и т. д.

Итак, продукты Data Mining условно можно разделить на три больших кате­гории:

  • входящие, как неотъемлемая часть, в системы управления базами данных;
  • библиотеки алгоритмов Data Mining с сопутствующей инфраструктурой;
  • коробочные или настольные решения ("черные ящики").

Продукты первых двух категорий предоставляют наибольшие возможности для интеграции и позволяют реализовать аналитический потенциал практиче­ски в любом приложении в любой области. Коробочные приложения, в свою очередь, могут предоставлять некоторые уникальные достижения в области Data Mining или быть специализированными для какой-либо конкретной сфе­ры применения. Однако в большинстве случаев их проблематично интегри­ровать в более широкие решения.


Включение аналитических возможностей в состав коммерческих систем управления базами данных является закономерной и имеющей огромный по­тенциал тенденцией. Действительно, где, как ни в местах концентрации дан­ных, имеет наибольший смысл размещать средства их обработки. Исходя из этого принципа, функциональность Data Mining в настоящий момент реали­зована в следующих коммерческих базах данных:

  • Oracle;
  • Microsoft SQL Server;
  • IBM DB2.

Основные тезисы

  • Интеллектуальный анализ данных позволяет автоматически, основываясь на большом количестве накопленных данных, генерировать гипотезы, ко­торые могут быть проверены другими средствами анализа (например. OLAP).
  • Data Mining— исследование и обнаружение машиной (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны и доступны для интерпретации человеком.
  • Методами Data Mining решаются три основные задачи: задача классифи­кации и регрессии, задача поиска ассоциативных правил и задача класте­ризации. По назначению они делятся на описательные и предсказатель­ные. По способам решения задачи разделяют на supervised learning (обуче­ние с учителем) и unsupervised learning (обучение без учителя).
  • Задача классификации и регрессии сводится к определению значения за­висимой переменной объекта по его независимым переменным. Если зависимая переменная принимает численные значения, то говорят о задаче регрессии, в противном случае — о задаче классификации.
  • При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Най­денные зависимости представляются в виде правил и могут быть исполь­зованы как для лучшего понимания природы анализируемых данных, так и для предсказания событий.
  • Задача кластеризации заключается в поиске независимых групп (класте­ров) и их характеристик во всем множестве анализируемых данных. Реше­ние этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.
  • Методы Data Mining находятся на стыке разных направлений информаци­онных технологий: статистики, нейронных сетей, нечетких множеств, ге­нетических алгоритмов и др.
  • Интеллектуальный анализ включает в себя следующие этапы: понимание и формулировка задачи анализа, подготовка данных для автоматизирован­ного анализа, применение методов Data Mining и построение моделей, проверка построенных моделей, интерпретация моделей человеком.
  • Перед применением методов Data Mining исходные данные должны быть преобразованы. Вид преобразований зависит от применяемых методов.
  • Методы Data Mining могут эффективно использоваться в различных об­ластях человеческой деятельности: в бизнесе, медицине, науке, телеком­муникациях и т. д.

3. Анализ текстовой информации — Text Mining

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по опре­деленным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т. п. Таким образом, непосредственно для анализа этой информации и получения из нее новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. Из-за этого КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, тексто­вые документы практически невозможно преобразовать в табличное пред­ставление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как тек­стовые поля (BLOB-поля). В го же время в тексте скрыто огромное количест­во информации, но ее неструктурированность не позволяет использовать ал­горитмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста. В западной литературе такой анализ называют Text Mining.

Методы анализа в неструктурированных текстах лежат на стыке нескольких областей: Data Mining, обработка естественных языков, поиск информации, извлечение информации и управление знаниями.

Определение Text Mining: Обнаружение знаний в тексте — это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Как видно, от определения Data Mining оно отличается только новым поняти­ем "неструктурированные текстовые данные". Под такими знаниями понима­ется набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру. Примерами таких доку­ментов являются: web-страницы, электронная почта, нормативные документы ит. п. В общем случае такие документы могут быть сложными и большими и включать в себя не только текст, но и графическую информацию. Документы, использующие язык расширяемой разметки XML (extensible Markup Lan­guage), стандартный язык обобщенной разметки SGML (Standard Generalised Markup Language) и другие подобные соглашения по структуре формирова­ния текста, принято называть полуструктурированными документами. Они также могут быть обработаны методами Text Mining.