Файл: Технологии интеллектуального анализа данных (Информационные технологии в профессиональной деятельности).pdf

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пиатецким-Шапиро в 1989 году.

Английское словосочетание «Data Mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания: добыча данных, извлечение данных, а, также, интеллектуальный анализ данных. Более полным и точным является словосочетание обнаружение знаний в базах данных (knowledge discovering in databases, KDD).

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечеткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний). Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Технологии интеллектуального анализа данных

Технологии интеллектуального анализа данных обеспечивают формирование аналитических данных посредством выполнения операции очищения данных локальных баз организации, применения статистических методов и других сложных алгоритмов. Появлению аналитических систем способствовало осознание руководящим звеном предприятий факта, что в базах данных содержится не только информация, но и знания (скрытые закономерности). Последние позволяют охарактеризовать процесс управления предприятием и дать интеллектуальную информацию для более обоснованного принятия решений.

Можно выделить следующие технологии интеллектуального анализа данных:

• Оперативный анализ данных посредством OLAP-систем;

• Поиск и интеллектуальный выбор данных Data Mining;

• Деловые интеллектуальные технологии BIS;

• Интеллектуальный анализ текстовой информации.

Data mining и базы данных

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных. Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционые реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. это привело, в свою очередь, к созданию т.н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.

Data mining и статистика

В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы (). В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.

Data mining и искусственный интеллект

Знания, добываемые методами Data mining, принято представлять в виде моделей. В качестве таких моделей выступают:

ассоциатиные правила;
деревья решений;
кластеры;
математические функции.

Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».

Этапы в процессе интеллектуального анализа данных

Традиционно выделяются следующие этапы в процессе

интеллектуального анализа данных:

1. Изучение предметной области, в результате которого

формулируются основные цели анализа.

2. Сбор данных.

3. Предварительная обработка данных:

Очистка данных – исключение противоречий и случайных

"шумов"из исходных данных

Интеграция данных – объединение данных из нескольких

возможных источников в одном хранилище

Преобразование данных. На данном этапе данные

преобразуются к форме, подходящей для анализа. Часто

применяется агрегация данных, дискретизация атрибутов,

сжатие данных и сокращение размерности.

4. Анализ данных. В рамках данного этапа применяются

алгоритмы интеллектуального анализа с целью извлечения

паттернов.

5. Интерпретация найденных паттернов. Данный этап может

включать визуализацию извлеченных паттернов, определение

действительно полезных паттернов на основе некоторой функции

полезности.

6. Использование новых знаний.

Компоненты систем интеллектуального анализа

Обычно в системах интеллектуального анализа данных выделяются

следующие главные компоненты:

1. База данных, хранилище данных или другой репозиторий

информации. Это может быть одна или несколько баз

данных, хранилище данных, электронные таблицы, другие виды

репозиториев, над которыми могут быть выполнены очистка и

интеграция. Виды баз данных:

• Реляционные базы данных;

• Хранилища данных;

• Транзакционные базы данных;

• Объектно-ориентированные базы данных;

• Объектно-реляционные базы данных;

• Пространственные базы данных (Spatial databases);

• Временн´ые базы данных (Temporal databases);

• Текстовые базы данных;

• Мультимедийные базы данных;

• Разнородные базы данных;

• Всемирная Паутина.

2. Сервер базы данных или хранилища данных. Указанный

сервер отвечает за извлечение существенных данных на основании

пользовательского запроса.

3. База знаний. Это знания о предметной области, которые

указывают, как проводить поиск и оценивать полезность

результирующих паттернов.

4. Служба добычи знаний. Она является неотъемлемой частью

системы интеллектуального анализа данных и содержит набор

функциональных модулей для таких задач, как характеризация,

поиск ассоциаций, классификация, кластерный анализ и анализ

отклонений.

5. Модуль оценки паттернов. Данный компонент вычисляет меры

интереса или полезности паттернов.

6. Графический пользовательский интерфейс. Этот модуль

отвечает за коммуникации между пользователем и системой

интеллектуального анализа данных, визуализацию паттернов в

различных формах.

Области применения.

Приведем некоторые примеры областей, где большое количество данных

хранится в централизованных или распределенных базах данных и

требует анализа:

• Электронные библиотеки, в которых систематизировано хранятся

тексты в различных форматах.

• Архивы изображений, состоящие из большого количества

изображений в сырой или сжатой форме. К изображениям

может прилагаться текст.

• Базы данных геномных исследований. Как известно, организм

человека состоит из более чем 50000 видов генов и белков в

различных сочетаниях. Исследованием и интерпретацией огромных

баз данных, возникших в результате расшифровки генома

человека, занимается биоинформатика.

• Медицинские изображения. Большое количество медицинских

сведений имеют вид изображений: ЭКГ, снимки внутренних

органов и т.д. Анализ этих изображений имеет большое значение

для медицины.

• Финансовые данные также являются важной сферой применения

методов интеллектуального анализа данных. Эти данные

представляют из себя котировки акций, золота, рыночные индексы,

процентные ставки, кредитные операции банков, транзакции по

кредитным картам, выявленные мошеннические операции, и т.д.

• Базы данных предприятий обычно хранят подробные сведения об

основных бизнес-операциях организации. Например, сведения

о клиентах могут представлять интерес для выработки

маркетинговой политики организации, политики удержания

клиентов, определения индивидуальных предпочтений клиентов.

• Телекоммуникационные системы являются источником таких

данных, как история вызовов, сбоев, перегрузок, содержимого

траффика, и т.д.

• Всемирная Паутина содержит огромный объем разнородной

мультимедийной информации различного типа. Ее можно считать

самой большой распределенной базой данных, которая когда-либо

существовала в мире.

• Биометрические данные человека (отпечатки пальцев, снимки лиц,

и т.д.) находят все большее применение в системах однозначной

идентификации человека. Это порождает необходимость развития

методов поиска и анализа в подобных базах данных.

Задачи Data Mining

Методы Data Mining помогают решить многие задачи, с которыми сталкивается аналитик. Из них основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация. Далее приведено краткое описание основных задач анализа данных.

Задача классификации сводится к определению класса объекта по его характеристикам. Необходимо заметить, что в этой задаче множество классов, к которым может быть отнесен объект, известно заранее.

Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи классификации значением параметра является не конечное множество классов, а множество действительных чисел.

При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий.

Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

Перечисленные задачи по назначению делятся на описательные и предсказательные.

Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кластеризация и поиск ассоциативных правил.