Файл: Технологии интеллектуального анализа данных или Data mining технологии.docx

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 07.12.2023

Просмотров: 70

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Национальный авиационный университет

Факультет компьютерных наук

Кафедра информационных технологий

Курсовая работа

по дисциплине: «Сетевые информационные технологии»

на тему: «Технологии интеллектуального анализа данных или Data mining технологии»

Выполнила:студентка ФКН УС-502 Морарь Ю.В.

Проверила:Климова А.С.

Киев-2012

Содержание

Введение_________________________________________________3

1. Почему растет популярность Data Mining?_________________________4

2. Определение Data Mining_________________________________________6

3. Области применения Data Mining__________________________________8

4. Типы закономерностей__________________________________________14

5. Классы систем Data Mining______________________________________15

6. Инструментарий технологии Data Mining__________________________20

7. Важное положение Data Mining__________________________________22

8. Специальные приложения________________________________________23

8.1. Медицина______________________________________________23

8.2 Молекулярная генетика и генная инженерия_________________23

8.3 Прикладная химия________________________________________24


9. Data Mining. Мультидисциплинарная область_______________________18

10. Класиффикация стадий Data Mining______________________________26

10.1. Свободный поиск (Discovery)_____________________________26

10.2. Прогностическое моделирование__________________________28

10.3. Анализ исключений(forensic analysis)_______________________31

11. Класиффикация методов Data Mining____________________________32

11.1. Статистические методы Data mining______________________35

11.2. Кибернетические методы Data Mining_____________________37

Выводы_________________________________________________38

Список литературы______________________________________41

Введение

Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем. Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным. Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение. (Григорий Пиатецкий-Шапиро)


Традиционные методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на "грубый" разведочный анализ, составляющий основу оперативной аналитической обработки данных (OnLine Analytical Processing, OLAP), в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей. Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным.

1.      Почему растет популярность Data Mining?

Мы живем в веке информации. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информации в самых различных областях. Трудно переоценить значение данных, которые мы непрерывно собираем в процессе нашей деятельности, в управлении бизнесом или производством, в банковском деле, в решении научных, инженерных и медицинских задач.

Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Мощные компьютерные системы, хранящие и управляющие огромными базами данных, стали неотъемлемым атрибутом жизнедеятельности, как крупных корпораций, так и даже небольших компаний.

Без продуктивной переработки потоки сырых данных образуют никому не нужную свалку. Наличие данных само по себе еще недостаточно для улучшения показателей работы. Нужно уметь трансформировать "сырые" данные в полезную для принятия важных бизнес решений информацию. В этом и состоит основное предназначение технологий Data Mining.

Необходимость автоматизированного интеллектуального анализа данных стала очевидной в первую очередь из-за огромных массивов исторической и вновь собираемой информации. Трудно даже приблизительно оценить объем ежедневных данных, накапливаемых различными компаниями, государственными, научными и медицинскими организациями. По мнению исследовательского центра компании GTE только научные институты собирают ежедневно около терабайта новых данных! А ведь академический мир далеко не самый главный поставщик информации. Человеческий ум, даже такой тренированный, как ум профессионального аналитика, просто не в состоянии своевременно анализировать столь огромные информационные потоки.



Другой причиной роста популярности Data Mining является объективность получаемых результатов. Человеку-аналитику, в отличие от машины, всегда присущ субъективизм, он в той или иной степени является заложником уже сложившихся представлений. Иногда это полезно, но чаще приносит большой вред.

И, наконец, Data Mining дешевле. Оказывается, что выгоднее инвестировать деньги в решения Data Mining, чем постоянно содержать целую армию высоко подготовленных и дорогих профессиональных статистиков. Data Mining вовсе не исключает полностью человеческую роль, но значительно упрощает процесс поиска знаний, делая его доступным для более широкого круга аналитиков, не являющихся специалистами в статистике, математике или программировании.

Итак, современная специфика такова, что:

  • данные имеют неограниченные объем;

  • данные являются разнородными (количественными, качественными, текстовыми);

  • результаты должны быть конкретны и понятны;

  • инструменты для обработки сырых данных должны быть просты в использовании.

2.      Определение Data Mining

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно не справляется с возникшими проблемами. Главная причина – концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов в больнице, средней высоты дома на улице и т.п.).

В основу Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющих так называемые скрытые знания (hidden knowledge). К обществу пришло понимание того, что сырые данные (raw data) содержат глубинные пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки. 

Существует множество определений Data Mining, но в целом они совпадают в выделении 4-х основных признаков. Вот определение, которое дал Григорий Пиатецкий-Шапиро (G. Piatetsky-Shapiro, GTE Labs.), один из ведущих мировых экспертов в области Data Mining:


Data Mining - это процесс обнаружения в сырых данных

  • ранее неизвестных,

  • нетривиальных,

  • практически полезных,

  • доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой деятельности.


Нахождение скрытых закономерностей в данных, взаимосвязей между различными переменными в базах данных, моделирование и изучение сложных систем на основе истории их поведения - вот предмет и задачи Data Mining.

Результаты Data Mining - эмпирические модели, классификационные правила, выделенные кластеры и т.д. - можно затем инкорпорировать в существующие системы поддержки принятия решений и использовать их для прогноза будущих ситуаций.

3.      Области применения Data Mining

Сферы применения Data Mining ничем не ограничены – она везде, где имеются какие-либо данные.

Data Mining представляет большую ценность для руководителей и аналитиков в их повседневной действительности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.

Розничная торговля

Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсами.

Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:

  • Анализ потребительской корзины

Предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо улучшения рекламы, выработки стратегии создания запасов товаров, способов их раскладки в торговых залах.

  • Исследование временных шаблонов

Помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?»

  • Создание прогнозирующих моделей

Дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знаний нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.


Банковское дело

Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсами.

Достижения технологии Data Mining используются в банковском деле для решения следующих задач:

  • Выявление мошенничества с кредитными карточками.

Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет стереотипы такого мошенничества.

  • Сегментация клиентов.

Разбивая клиентов на различные категории, банки делают свою маркетинговую политики более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.

  • Прогнозирование изменений клиентуры.

Data Mining помогает банкам строить прогнозные модели ценности своих клиентов и соответствующим образом обслуживать каждую категорию.

Телекоммуникации

Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок, прогнозирование поступления средств.

В области телекоммуникации методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообрахования, чтобы удержать существующих клиентов и привлекать новых. Среди типичных мероприятий отметим следующие:

  • Анализ записей о подробных характеристиках вызовов.

Назначение такого анализа – выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг.


  • Выявление лояльности клиентов.

Data Mining можно использовать для определения характеристик клиентов, которые один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными (прогноз постоянства клиента). В итоге, средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.

Страхование

  • Привлечение и удержание клиентов, прогнозирование финансовых показателей.

Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining:

  • Выявление мошенничества.

Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.

  • Анализ риска.