Файл: Методики оперативного и интеллектуального анализа.pdf

ВУЗ: Не указан

Категория: Реферат

Дисциплина: Не указана

Добавлен: 05.07.2023

Просмотров: 245

Скачиваний: 5

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введение в анализ данных

Методология анализа

Анализ данных — широкое понятие. Сегодня существуют десятки его определений.

В самом общем смысле анализ данных — это исследования, связанные с обсчетом

многомерной системы данных, имеющей множество параметров. В процессе анализа данных исследователь производит совокупность действий с целью формирования определенных представлений о характере явления, описываемого этими данными. Как правило, для анализа данных используются различные математические методы.

Анализ данных нельзя рассматривать только как обработку информации после

ее сбора. Анализ данных — это прежде всего средство проверки гипотез и решения задач исследователя.

Известное противоречие между ограниченными познавательными способностями

человека и бесконечностью Вселенной заставляет нас использовать модели и моделирование, тем самым упрощая изучение интересующих объектов, явлений и систем.

Слово «модель» (лат. modelium) означает «мера», «способ», «сходство с какой-

то вещью».

Построение моделей — универсальный способ изучения окружающего мира, позволяющий обнаруживать зависимости, прогнозировать, разбивать на группы и решать множество других задач. Основная цель моделирования в том, что модель должна достаточно хорошо отображать функционирование моделируемой системы.

ОПРЕДЕЛЕНИЕ

Модель — объект или описание объекта, системы для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств.

Моделирование — универсальный метод получения, описания и использования знаний. Применяется в любой профессиональной деятельности.По виду моделирования модели делят на:

эмпирические — полученные на основе эмпирических фактов, зависимостей;

теоретические — полученные на основе математических описаний, законов;

смешанные,

полуэмпирические — полученные на основе эмпирических зависимостей и математических описаний.

ПРИМЕР

Совокупность предприятий функционирует на рынке, обмениваясь товарами, сырьем, услугами, информацией. Если описать экономические законы, правила взаимодействия на рынке с помощью математических соотношений, например системы алгебраических уравнений, где неизвестными будут величины прибыли, получаемые от взаимодействия предприятий, а коэффициентами уравнения — значения интенсивности таких взаимодействий, то получится математическая модель экономической системы, то есть экономико-математическая модель системы предприятий на рынке.


Таким образом, анализ данных тесно связан с моделированием.

Отметим важные свойства любой модели.

Упрощенность. – Модель отображает только существенные стороны объекта и, кроме того, должна быть проста для исследования или воспроизведения.

Конечность. Модель отображает оригинал лишь в конечном числе его отношений, и, кроме того, ресурсы моделирования конечны.

Приближенность. – Действительность отображается моделью грубо или приближенно.

Адекватность. – Модель должна успешно описывать моделируемую систему.

Целостность. – Модель реализует некоторую систему (то есть целое).

Замкнутость. – Модель учитывает и отображает замкнутую систему необходимых основных гипотез, связей и отношений.

Управляемость. – Модель должна иметь хотя бы один параметр, изменениями которого можно имитировать поведение моделируемой системы в различных условиях.

Процесс анализа

В информационном подходе к анализу данных, помимо модели, присутствуют еще

три важные составляющие: эксперт, гипотеза и аналитик.

ОПРЕДЕЛЕНИЕ

Эксперт — специалист в предметной области, профессионал, который за годы обучения и практической деятельности научился эффективно решать задачи, относящиеся к конкретной предметной области.

Эксперт — ключевая фигура в процессе анализа. По-настоящему эффективные аналитические решения можно получить не на основе одних лишь компьютерных программ, а в результате сочетания лучшего из того, что могут человек и компьютер. Эксперт выдвигает гипотезы (предположения) и для проверки их достоверности либо просматривает некие выборки различными способами, либо строит те или иные модели.

ПРИМЕР

Гипотезой в анализе данных часто выступает предположение о влиянии какого-либо фак-

тора или группы факторов на результат. К примеру, при построении прогноза продаж до-

пускается предположение, что на величину будущих продаж существенно влияют продажи

за предыдущие периоды и остатки на складе. При моделировании кредитоспособности

потенциального заемщика выдвигается гипотеза, что на кредитоспособность влияют социально-экономические характеристики клиента: возраст, образование, семейное положение и т. п.

В крупных проектах по созданию прикладных аналитических решений участвуют, как правило, несколько экспертов, а также аналитик.


Определение

Аналитик — специалист в области анализа и моделирования. Аналитик на достаточном уровне владеет какими-либо инструментальными и программными средствами анализа данных, например методами Data Mining. Кроме того, в обязанности аналитика входят функции систематизации данных, опроса мнений экспертов, координации действий всех участников проекта по анализу данных. Аналитик играет роль «мостика» между экспертами, то есть является связующим звеном между специалистами разных уровней и областей. Он собирает у экспертов различные гипотезы, выдвигает требования к данным, проверяет гипотезы и вместе с экспертами анализирует полученные результаты. Аналитик должен обладать системными знаниями, так как помимо задач анализа на его плечи часто ложатся технические вопросы, связанные с базами данных, интеграцией и производительностью.

Поэтому в дальнейшем главным лицом в анализе данных мы будем считать аналитика, предполагая, что он тесно сотрудничает с экспертами предметных областей.

Добыча данных — Data Mining

Знания есть не только у человека, но и в накопленных данных, которые подвергаются анализу. Такие знания часто называют "скрытыми", т. к. они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии исследовать самостоятельно. В связи с этим существует высо­кая вероятность пропустить гипотезы, которые могут принести значительную выгоду.

Очевидно, что для обнаружения скрытых знаний необходимо применять спе­циальные методы автоматического анализа, при помощи которых приходится практически добывать знания из "завалов" информации. За этим направлени­ем прочно закрепился термин добыча данных или Data Mining. Классическое определение этого термина дал в 1996 г. один из основателей этого направле­ния — Григорий Пятецкий-Шапиро.

Data Mining — исследование и обнаружение "машиной" (алгоритмами, средствами искусственною интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны практически полезны, доступны для интерпретации человеком.

Рассмотрим свойства обнаруживаемых знаний, данные в определении, более подробно.

  • Знании должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
  • Знания должны быть нетривиальны. Результаты анализа должны отра­жать неочевидные, неожиданные закономерности в данных, составляю­щие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмот­ром), не оправдывают привлечение мощных методов Data Mining.
  • Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
  • Знании должны быть доступны для понимании человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обна­руженные знания должны быть представлены в понятном для человека виде.

В Data Mining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенными яв­ляются: правила, деревья решений, кластеры и математические функции.

Задачи Data Mining

Методы Data Mining помогают решить многие задачи, с которыми сталкива­ется аналитик. Из них основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация. Далее приведено краткое описание основных задач анализа данных.

  • Задача классификации сводится к определению класса объекта по его ха­рактеристикам. Необходимо заметить, что в этой задаче множество клас­сов, к которым может быть отнесен объект, известно заранее.
  • Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи кпассификации значением параметра является не ко­нечное множество классов, а множество действительных чисел.
  • При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Най­денные зависимости представляются в виде правил и могут быть исполь­зованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий.
  • Задача кластеризации заключается в поиске независимых групп (класте­ров) и их характеристик во всем множестве анализируемых данных. Реше­ние этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

Перечисленные задачи по назначению делятся на описательные и предсказа­тельные.

Описательные (descriptive) задачи уделяют внимание улучшению понима­ния анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаружен­ные закономерности будут специфической чертой именно конкретных иссле­дуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кла­стеризация и поиск ассоциативных правил.

Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами стро­ится модель. Па втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, что­бы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть ис­пользованы для предсказания появления некоторых событий.


По способам решения задачи разделяют на supervised learning (обучение с учителем) и unsupervised learning (обучение без учителя). Такое название произошло от термина Machine Learning (машинное обучение), часто исполь­зуемого в англоязычной литературе и обозначающего все технологии Data Mining.

В случае supervised learning задача анализа данных решается в несколько эта­пов. Сначала с помощью какого-либо алгоритма Data Mining строится модель анализируемых данных — классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество его работы, и, если оно неудовлетворительное, происходит дополнительное обучение классификато­ра. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую можно вы­явить. К этому типу задач относят задачи классификации и регрессии.

Unsupervised learning объединяет задачи, выявляющие описательные модели, например закономерности в покупках, совершаемых клиентами большого магазина. Очевидно, что если эти закономерности есть, то модель должна их представить и неуместно говорить об ее обучении. Достоинством таких задач является возможность их решения без каких-либо предварительных знаний об анализируемых данных. К этим задачам относятся кластеризация и поиск ассоциативных правил.

Применение Data Mining

Интернет-технологии

В системах электронного бизнеса, где особую важность имеют вопросы при­влечения и удержания клиентов, технологии Data Mining часто применяются для построения рекомендательных систем интернет-магазинов и для решения проблемы персонализации посетителей web-сайтов.

Торговля

Для успешного продвижения товаров всегда важно знать, что и как продает­ся, а также кто является потребителем. Исчерпывающий ответ на первый во­прос дают такие средства Data Mining, как анализ рыночных корзин и сик-венциальный анализ.

Телекоммуникации

способов использования методов Data Mining— это анализ записей о подробных характеристиках вызовов. Назна­чение такого анализа— выявление категорий клиентов с похожими стерео­типами пользования услугами и разработка привлекательных наборов цен и услуг.