ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 29.07.2021
Просмотров: 302
Скачиваний: 1
СОДЕРЖАНИЕ
Интеллектуальный анализ данных, определение, основные особенности. Классификация задач Data Mining
Практическое применение Data Mining – прикладные задачи для банков, используемые методы.
Этапы методики извлечения знаний. Особенности и значимость каждого этапа.
Платформа Deductor. Возможности, архитектура, решаемые задачи.
Бизнес-аналитика. Основные понятия, определения. Роль аналитических систем в общей архитектуре корпоративной информационной системы уровня предприятия.
Бизнес-аналитика — это методы и инструменты для построения информативных отчётов о текущей ситуации. Бизнес-аналитика — это инструменты, используемые для преобразования, хранения, анализа, моделирования, доставки и трассировки информации в ходе работы над задачами, связанными с принятием решений на основе фактических данных. Итак, бизнес-аналитика – это представление некоторого явления нашей жизни (в нашем случае бизнеса, организации) в виде модели, отражающей его структуру, для облегчения понимания всеми заинтересованными сторонами.
Основная идея BI: - организация доступа конечного пользователя к информации - анализ структурированных данных и информации о бизнесе.
Методы анализа данных – направляется пользователем. Средства для анализа:
- Пакеты статистического анализа
- Средства моделирования
- Пакеты для нейронных сетей
- Средства нечеткой логики и экспертные системы.
Методы разведки данных (data mining) – специализированные алгоритмы, устанавливающие взаимоотношения и тенденции свободные от мнения пользователя. (отбор признаков, кластеризация, стратификация, визуализация и регрессия)
Бизнес - игра, в которой нет и не может быть единственно правильных ходов.
-
Накоплен набор возможных ситуаций и процедур их реализации. (Формализация - алгоритм)
-
Для конфликтных, незапланированных ситуаций приходится импровизировать. (На любом уровне управления)
-
Регулярный менеджмент - это не панацея от всех бед, а работа по принятию решений на основе располагаемой информации.
-
Для принятия решений есть общие принципы и подходы, которые следует учитывать. (Необходимо знать «7 нот менеджмента», но не достаточно ...)
Архитектура современной иас
Аналитические технологии - это методики, которые на основе каких-либо моделей, алгоритмов, математических теорем позволяют по известным данным оценить значения неизвестных характеристик и параметров.
Аналитические технологии нужны в первую очередь людям, принимающим важные решения - руководителям, аналитикам, экспертам, консультантам.
Доход компании в большой степени определяется качеством этих решений - точностью прогнозов, оптимальностью выбранных стратегий.
Прогнозирование:
-
курсов валют
-
цен на сырье
-
спроса
-
дохода компании
-
уровня безработицы
-
числа страховых случаев
Оптимизация:
-
расписаний
-
маршрутов
-
плана закупок
-
плана инвестиций
-
стратегии развития
Хранилище данных. Концепция построения и использования. Архитектура физической и виртуальной реализации Хранилища данных. Витрина данных.
В результате успешного функционирования OLTP-систем было собрано много данных. Собранные данные хранили информацию, которая могла служить основой анализа для целей стратегического совершенствования бизнеса. Появилась необходимость создания систем, которые были нацелены на накопление данных и операции их последующей обработки.
Хранилище данных – разновидность систем хранения, ориентированная на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивость и хронологию данных, а также высокую скорость выполнения аналитических запросов.
Определение Инмона - предметно-ориентированный, интегрированный,
неизменяемый и поддерживающий хронологию набор данных, предназначенный для обеспечения принятия управленческих решений.
В основе концепции ХД лежат следующие положения:
-
интеграция и согласование данных из различных источников, таких как обычные системы оперативной обработки, базы данных, учетные системы, офисные документы, электронные архивы, расположенные как внутри предприятия, так и во внешнем окружении;
-
разделение наборов данных, используемых системами выполнения транзакций и СППР.
Архитектура физ и вирт реализации.
Виртуальное хранилище данных – это система, представляющая интерфейсы и методы доступа к регистрирующей системе, которые эмулируют работу с данными в этой системе, как с хранилищем данных. Виртуальное хранилище данных можно организовать, создав ряд представлений (view) в базе данных, либо применив специальные средства доступа, например продукты класса Desktop OLAP, к которым относится, например, BusinessObjects, Brio Enterprise и другие.
Достоинства:
-
Простота создания
-
Работа на данных малого объема и низкого качества
-
Возможность использования экспертных знаний
Недостатки:
-
Неспособность обрабатывать большие объемы
-
Неспособность анализа сложных закономерностей
-
Сильная зависимость от конкретного эксперта
-
Отсутствие возможности тиражирования
Виртуальные ХД не являются хранилищами данных в привычном понимании. В таких системах работа ведется с отдельными источниками данных, но при этом эмулируется работа обычного ХД. Иначе говоря, данные не консолидируются физически, а собираются непосредственно в процессе выполнения запроса.
Витрина данных (кубы) – срез хранилища данных, представляющий собой массив тематической, узконаправленной информации, ориентированный, например, на пользователей одной рабочей группы или департамента. По сути дела, ВД - это облегченный вариант ХД, существенно меньше по объему, чем корпоративный ХД, и для его реализации не требуется особо мощная вычислительная техника. При этом главная идея заключалась в том, что ВД максимально приближены к конечному пользователю и содержат только тематические подмножества заранее агрегированных данных, по размерам гораздо меньшие, чем общекорпоративное ХД, и, следовательно, требующие менее производительной техники для поддержания. Концепция ВД ориентирована исключительно на хранение, а не на обработку корпоративных данных.
Организация Хранилища данных, детальные данные, агрегированные данные, метаданные. Извлечение, преобразование, загрузка данных в Хранилища данных (ETL процесс).
OLAP системы действуют в сфере агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной аналитической обработки данных (OLAP). Здесь могут применяться как специальные многомерные СУБД, так и средства, реализованные в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида, либо агрегация информации может производиться на лету в процессе сканирования детализированных таблиц реляционной БД.
Возможная архитектура реализации хранения данных в системе OLAP (MOLAP, HOLAP или ROLAP). Сравнительные преимущества и недостатки для выбора.
В настоящее время на рынке присутствует большое количество продуктов, которые в той или иной степени обеспечивают функциональность OLAP. Около 30 наиболее известных перечислены в списке обзорного Web-сервера http://www.olapreport.com/. Обеспечивая многомерное концептуальное представление со стороны пользовательского интерфейса к исходной базе данных, все продукты OLAP делятся на три класса по типу исходной БД.
• Самые первые системы оперативной аналитической обработки (например, Essbase компании Arbor Software, Oracle Express Server компании Oracle) относились к классу MOLAP, то есть могли работать только со своими собственными многомерными базами данных. Они основываются на патентованных технологиях для многомерных СУБД и являются наиболее дорогими. Эти системы обеспечивают полный цикл OLAP-обработки. Они либо включают в себя, помимо серверного компонента, собственный интегрированный клиентский интерфейс, либо используют для связи с пользователем внешние программы работы с электронными таблицами. Для обслуживания таких систем требуется специальный штат сотрудников, занимающихся установкой, сопровождением системы, формированием представлений данных для конечных пользователей.
• Системы оперативной аналитической обработки реляционных данных (ROLAP) позволяют представлять данные, хранимые в реляционной базе, в многомерной форме, обеспечивая преобразование информации в многомерную модель через промежуточный слой метаданных. К этому классу относятся DSS Suite компании MicroStrategy, MetaCube компании Informix, DecisionSuite компании Information Advantage и другие. Программный комплекс ИнфоВизор , разработанный в России, в Ивановском государственном энергетическом университете, также является системой этого класса. ROLAP-системы хорошо приспособлены для работы с крупными хранилищами. Подобно системам MOLAP, они требуют значительных затрат на обслуживание специалистами по информационным технологиям и предусматривают многопользовательский режим работы.
• Наконец, гибридные системы (Hybrid OLAP, HOLAP) разработаны с целью совмещения достоинств и минимизации недостатков, присущих предыдущим классам. К этому классу относится Media/MR компании Speedware. По утверждению разработчиков, он объединяет аналитическую гибкость и скорость ответа MOLAP с постоянным доступом к реальным данным, свойственным ROLAP.
Назначение ОLAP системы, основные пользователи, многомерная модель данных, рынок ПО. Признаки, определяющие принадлежность системы к классу ОLAP систем.
Двенадцать определяющих принципов OLAP были сформулированы в 1993 году Е.Ф. Коддом, "изобретателем" реляционных баз данных. OLAP - это OnLine Analytical Processing, то есть оперативный анализ данных. Позже определение Кодда было переработано в так называемый тест FASMI (Fast Analysis of Shared Multidimensional Information - быстрый анализ разделяемой многомерной информации. По Кодду, многомерное концептуальное представление (multi-dimensional conceptual view) представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ.
№ |
Название правила |
Описание |
1. |
Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View) |
Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции "анализа вдоль и поперек" ("slice and dice"), вращения (rotate) и размещения (pivot) направлений консолидации. |
2. |
Прозрачность (Transparency) |
Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся. |
3. |
Доступность (Accessibility) |
Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. То есть инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию. |
4. |
Устойчивая производительность (Consistent Reporting Performance) |
С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя. |
5. |
Клиент - серверная архитектура (Client-Server Architecture) |
Большая часть данных, требующих оперативной аналитической обработки, хранится в мэйнфреймовых системах, а извлекается с персональных компьютеров. Поэтому одним из требований является способность продуктов OLAP работать в среде клиент-сервер. Главной идеей здесь является то, что серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и обладать способностью строить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности. |
6. |
Равноправие измерений (Generic Dimensionality) |
Все измерения данных должны быть равноправны. Дополнительные характеристики могут быть предоставлены отдельным измерениям, но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчетов не должны опираться на какое-то одно измерение. |
7. |
Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling) |
Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных. |
8. |
Поддержка многопользовательского режима (Multi-User Support) |
Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных. |
9. |
Неограниченная поддержка кроссмерных операций (Unrestricted Cross-dimensional Operations) |
Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке. |
10. |
Интуитивное манипулирование данными (Intuitive Data Manipulation) |
Переориентация направлений консолидации, детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии направлений консолидации, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе. |
11. |
Гибкий механизм генерации отчетов (Flexible Reporting) |
Должны поддерживаться различные способы визуализации данных, то есть отчеты должны представляться в любой возможной ориентации. |
12. |
Неограниченное количество измерений и уровней агрегации (Unlimited Dimensions and Aggregation Levels) |
Настоятельно рекомендуется допущение в каждом серьезном OLAP инструменте как минимум пятнадцати, а лучше двадцати, измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определенных пользователем уровней агрегации по любому направлению консолидации. |
Интеллектуальный анализ данных, определение, основные особенности. Классификация задач Data Mining
Широкое распространение программного и аппаратного обеспечения для Хранилищ данных приводит к тому, что компании получают возможность собирать данные легко и «с избытком». И теперь для поддержания конкурентоспособности без средств Data Mining уже не обойтись, тем более что они становятся всё более и более доступными.
Data Mining - процесс анализа баз данных, направленный на поиск новой полезной информации, обычно представленной в форме ранее неизвестных отношений между переменными. Обнаружение новых знаний можно использовать для повышения маркетинговой эффективности базы данных. Анализируя соответствующие данные пользователей, можно предсказать поведение клиентов и даже повлиять на него. Компании в самых разных отраслях экономики используют преимущества этой технологии.
Определим наиболее важные на текущий момент задачи DM. Две ключевые задачи DM определяются через понятия прогнозирования и объяснения. Прогнозированием называется задача предсказания значения целевой переменной при наличии значений других переменных (атрибутов) в БД, либо предсказание значения целевой переменной в будущем. Под объяснением понимают поиск полезных и интерпретируемых закономерностей в целях создания требуемой модели приложения. Вторая задача является значительно более трудоемкой и поэтому она считается основной в процессе KDD
Задачи прогнозирования и объяснения распадаются на следующие подзадачи:
Описание понятий и классов с целью построения их моделей или их различения. Обычно данные ассоциированы либо с некоторыми понятиями или классами понятий, компактное, агрегированное описание которых позволяет пользователю получить ценную информацию. С другой стороны, часто для принятия решений важно понять различие двух или более понятий, классов.
Анализ ассоциаций. Эта задача имеет обширные приложения в области маркетинга (исследование "покупательской корзины") и в ряде других приложений. В частности, результаты анализа ассоциаций позволяют получать паттерны типа ассоциативных правил, которые далее могут использоваться для формирования продукционных баз знаний в системах принятия решений, обнаружения причин отказов аппаратуры, причин негативного или, наоборот, позитивного развития событий и т.п.
Классификация. Задача отнесения отдельного примера к одному из нескольких классов. Является на данный момент одной из превалирующих задач DM (типичный представитель – задача обнаружения вторжений в компьютерной сети (intrusion detection)).
Регрессионный анализ. Задача нахождения функции, задающей отношение вектора вещественных переменных в момент времени к вектору тех же (либо других) вещественных переменных в момент времени . В общем случае данная пара векторов может не зависеть от времени.