ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 29.07.2021

Просмотров: 274

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

СОДЕРЖАНИЕ

Бизнес-аналитика. Основные понятия, определения. Роль аналитических систем в общей архитектуре корпоративной информационной системы уровня предприятия.

Хранилище данных. Концепция построения и использования. Архитектура физической и виртуальной реализации Хранилища данных. Витрина данных.

Организация Хранилища данных, детальные данные, агрегированные данные, метаданные. Извлечение, преобразование, загрузка данных в Хранилища данных (ETL процесс).

Возможная архитектура реализации хранения данных в системе OLAP (MOLAP, HOLAP или ROLAP). Сравнительные преимущества и недостатки для выбора.

Назначение ОLAP системы, основные пользователи, многомерная модель данных, рынок ПО. Признаки, определяющие принадлежность системы к классу ОLAP систем.

Интеллектуальный анализ данных, определение, основные особенности. Классификация задач Data Mining

Практическое применение Data Mining – прикладные задачи для банков, используемые методы.

Задачи кластеризации. Постановка задачи, базовые алгоритмы решения, достоинства и недостатки. Применение задачи кластеризации в банковской сфере.

Этапы методики извлечения знаний. Особенности и значимость каждого этапа.

Платформа Deductor. Возможности, архитектура, решаемые задачи.

Бизнес-аналитика. Основные понятия, определения. Роль аналитических систем в общей архитектуре корпоративной информационной системы уровня предприятия.

Бизнес-аналитика — это методы и инструменты для построения информативных отчётов о текущей ситуации. Бизнес-аналитика — это инструменты, используемые для преобразования, хранения, анализа, моделирования, доставки и трассировки информации в ходе работы над задачами, связанными с принятием решений на основе фактических данных. Итак, бизнес-аналитика – это представление некоторого явления нашей жизни (в нашем случае бизнеса, организации) в виде модели, отражающей его структуру, для облегчения понимания всеми заинтересованными сторонами.

Основная идея BI: - организация доступа конечного пользователя к информации - анализ структурированных данных и информации о бизнесе.

Методы анализа данных – направляется пользователем. Средства для анализа:

- Пакеты статистического анализа

- Средства моделирования

- Пакеты для нейронных сетей

- Средства нечеткой логики и экспертные системы.

Методы разведки данных (data mining) – специализированные алгоритмы, устанавливающие взаимоотношения и тенденции свободные от мнения пользователя. (отбор признаков, кластеризация, стратификация, визуализация и регрессия)

Бизнес - игра, в которой нет и не может быть единственно правильных ходов.

  • Накоплен набор возможных ситуаций и процедур их реализации. (Формализация - алгоритм)

  • Для конфликтных, незапланированных ситуаций приходится импровизировать. (На любом уровне управления)

  • Регулярный менеджмент - это не панацея от всех бед, а работа по принятию решений на основе располагаемой информации.

  • Для принятия решений есть общие принципы и подходы, которые следует учитывать. (Необходимо знать «7 нот менеджмента», но не достаточно ...)

Архитектура современной иас



Аналитические технологии - это методики, которые на основе каких-либо моделей, алгоритмов, математических теорем позволяют по известным данным оценить значения неизвестных характеристик и параметров.

Аналитические технологии нужны в первую очередь людям, принимающим важные решения - руководителям, аналитикам, экспертам, консультантам.

Доход компании в большой степени определяется качеством этих решений - точностью прогнозов, оптимальностью выбранных стратегий.

Прогнозирование:

  • курсов валют

  • цен на сырье

  • спроса

  • дохода компании

  • уровня безработицы

  • числа страховых случаев

Оптимизация:

  • расписаний

  • маршрутов

  • плана закупок

  • плана инвестиций

  • стратегии развития

Хранилище данных. Концепция построения и использования. Архитектура физической и виртуальной реализации Хранилища данных. Витрина данных.

В результате успешного функционирования OLTP-систем было собрано много данных. Собранные данные хранили информацию, которая могла служить основой анализа для целей стратегического совершенствования бизнеса. Появилась необходимость создания систем, которые были нацелены на накопление данных и операции их последующей обработки.


Хранилище данных – разновидность систем хранения, ориентированная на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивость и хронологию данных, а также высокую скорость выполнения аналитических запросов.

Определение Инмона - предметно-ориентированный, интегрированный,

неизменяемый и поддерживающий хронологию набор данных, предназначенный для обеспечения принятия управленческих решений.

В основе концепции ХД лежат следующие положения:

  • интеграция и согласование данных из различных источников, таких как обычные системы оперативной обработки, базы данных, учетные системы, офисные документы, электронные архивы, расположенные как внутри предприятия, так и во внешнем окружении;

  • разделение наборов данных, используемых системами выполнения транзакций и СППР.

Архитектура физ и вирт реализации.

Виртуальное хранилище данных – это система, представляющая интерфейсы и методы доступа к регистрирующей системе, которые эмулируют работу с данными в этой системе, как с хранилищем данных. Виртуальное хранилище данных можно организовать, создав ряд представлений (view) в базе данных, либо применив специальные средства доступа, например продукты класса Desktop OLAP, к которым относится, например, BusinessObjects, Brio Enterprise и другие.

Достоинства:

    • Простота создания

    • Работа на данных малого объема и низкого качества

    • Возможность использования экспертных знаний

Недостатки:

    • Неспособность обрабатывать большие объемы

    • Неспособность анализа сложных закономерностей

    • Сильная зависимость от конкретного эксперта

    • Отсутствие возможности тиражирования

Виртуальные ХД не являются хранилищами данных в привычном понимании. В таких системах работа ведется с отдельными источниками данных, но при этом эмулируется работа обычного ХД. Иначе говоря, данные не консолидируются физически, а собираются непосредственно в процессе выполнения запроса.

Витрина данных (кубы) – срез хранилища данных, представляющий собой массив тематической, узконаправленной информации, ориентированный, например, на пользователей одной рабочей группы или департамента. По сути дела, ВД - это облегченный вариант ХД, существенно меньше по объему, чем корпоративный ХД, и для его реализации не требуется особо мощная вычислительная техника. При этом главная идея заключалась в том, что ВД максимально приближены к конечному пользователю и содержат только тематические подмножества заранее агрегированных данных, по размерам гораздо меньшие, чем общекорпоративное ХД, и, следовательно, требующие менее производительной техники для поддержания. Концепция ВД ориентирована исключительно на хранение, а не на обработку корпоративных данных.

Организация Хранилища данных, детальные данные, агрегированные данные, метаданные. Извлечение, преобразование, загрузка данных в Хранилища данных (ETL процесс).


OLAP системы действуют в сфере агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной аналитической обработки данных (OLAP). Здесь могут применяться как специальные многомерные СУБД, так и средства, реализованные в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида, либо агрегация информации может производиться на лету в процессе сканирования детализированных таблиц реляционной БД.


Возможная архитектура реализации хранения данных в системе OLAP (MOLAP, HOLAP или ROLAP). Сравнительные преимущества и недостатки для выбора.

В настоящее время на рынке присутствует большое количество продуктов, которые в той или иной степени обеспечивают функциональность OLAP. Около 30 наиболее известных перечислены в списке обзорного Web-сервера http://www.olapreport.com/. Обеспечивая многомерное концептуальное представление со стороны пользовательского интерфейса к исходной базе данных, все продукты OLAP делятся на три класса по типу исходной БД.

• Самые первые системы оперативной аналитической обработки (например, Essbase компании Arbor Software, Oracle Express Server компании Oracle) относились к классу MOLAP, то есть могли работать только со своими собственными многомерными базами данных. Они основываются на патентованных технологиях для многомерных СУБД и являются наиболее дорогими. Эти системы обеспечивают полный цикл OLAP-обработки. Они либо включают в себя, помимо серверного компонента, собственный интегрированный клиентский интерфейс, либо используют для связи с пользователем внешние программы работы с электронными таблицами. Для обслуживания таких систем требуется специальный штат сотрудников, занимающихся установкой, сопровождением системы, формированием представлений данных для конечных пользователей.

• Системы оперативной аналитической обработки реляционных данных (ROLAP) позволяют представлять данные, хранимые в реляционной базе, в многомерной форме, обеспечивая преобразование информации в многомерную модель через промежуточный слой метаданных. К этому классу относятся DSS Suite компании MicroStrategy, MetaCube компании Informix, DecisionSuite компании Information Advantage и другие. Программный комплекс ИнфоВизор , разработанный в России, в Ивановском государственном энергетическом университете, также является системой этого класса. ROLAP-системы хорошо приспособлены для работы с крупными хранилищами. Подобно системам MOLAP, они требуют значительных затрат на обслуживание специалистами по информационным технологиям и предусматривают многопользовательский режим работы.

• Наконец, гибридные системы (Hybrid OLAP, HOLAP) разработаны с целью совмещения достоинств и минимизации недостатков, присущих предыдущим классам. К этому классу относится Media/MR компании Speedware. По утверждению разработчиков, он объединяет аналитическую гибкость и скорость ответа MOLAP с постоянным доступом к реальным данным, свойственным ROLAP.


Назначение ОLAP системы, основные пользователи, многомерная модель данных, рынок ПО. Признаки, определяющие принадлежность системы к классу ОLAP систем.

Двенадцать определяющих принципов OLAP были сформулированы в 1993 году Е.Ф. Коддом, "изобретателем" реляционных баз данных. OLAP - это OnLine Analytical Processing, то есть оперативный анализ данных. Позже определение Кодда было переработано в так называемый тест FASMI (Fast Analysis of Shared Multidimensional Information - быстрый анализ разделяемой многомерной информации. По Кодду, многомерное концептуальное представление (multi-dimensional conceptual view) представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ.


Название правила

Описание

<TBODY>1.

Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View)

Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции "анализа вдоль и поперек" ("slice and dice"), вращения (rotate) и размещения (pivot) направлений консолидации.

2.

Прозрачность (Transparency)

Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.

3.

Доступность (Accessibility)

Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. То есть инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.

4.

Устойчивая производительность

(Consistent Reporting Performance)

С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя.

5.

Клиент - серверная архитектура

(Client-Server Architecture)

Большая часть данных, требующих оперативной аналитической обработки, хранится в мэйнфреймовых системах, а извлекается с персональных компьютеров. Поэтому одним из требований является способность продуктов OLAP работать в среде клиент-сервер. Главной идеей здесь является то, что серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и обладать способностью строить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности.

6.

Равноправие измерений

(Generic Dimensionality)

Все измерения данных должны быть равноправны. Дополнительные характеристики могут быть предоставлены отдельным измерениям, но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчетов не должны опираться на какое-то одно измерение.

7.

Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling)

Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных.

8.

Поддержка многопользовательского режима (Multi-User Support)

Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.

9.

Неограниченная поддержка кроссмерных операций

(Unrestricted Cross-dimensional Operations)

Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.

10.

Интуитивное манипулирование данными (Intuitive Data Manipulation)

Переориентация направлений консолидации, детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии направлений консолидации, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.

11.

Гибкий механизм генерации отчетов

(Flexible Reporting)

Должны поддерживаться различные способы визуализации данных, то есть отчеты должны представляться в любой возможной ориентации.

12.

Неограниченное количество измерений и уровней агрегации

(Unlimited Dimensions and Aggregation Levels)

Настоятельно рекомендуется допущение в каждом серьезном OLAP инструменте как минимум пятнадцати, а лучше двадцати, измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определенных пользователем уровней агрегации по любому направлению консолидации.</TBODY>





Интеллектуальный анализ данных, определение, основные особенности. Классификация задач Data Mining

Широкое распространение программного и аппаратного обеспечения для Хранилищ данных приводит к тому, что компании получают возможность собирать данные легко и «с избытком». И теперь для поддержания конкурентоспособности без средств Data Mining уже не обойтись, тем более что они становятся всё более и более доступными.

Data Mining - процесс анализа баз данных, направленный на поиск новой полезной информации, обычно представленной в форме ранее неизвестных отношений между переменными. Обнаружение новых знаний можно использовать для повышения маркетинговой эффективности базы данных. Анализируя соответствующие данные пользователей, можно предсказать поведение клиентов и даже повлиять на него. Компании в самых разных отраслях экономики используют преимущества этой технологии.

Определим наиболее важные на текущий момент задачи DM. Две ключевые задачи DM определяются через понятия прогнозирования и объяснения. Прогнозированием называется задача предсказания значения целевой переменной при наличии значений других переменных (атрибутов) в БД, либо предсказание значения целевой переменной в будущем. Под объяснением понимают поиск полезных и интерпретируемых закономерностей в целях создания требуемой модели приложения. Вторая задача является значительно более трудоемкой и поэтому она считается основной в процессе KDD

Задачи прогнозирования и объяснения распадаются на следующие подзадачи:

Описание понятий и классов с целью построения их моделей или их различения. Обычно данные ассоциированы либо с некоторыми понятиями или классами понятий, компактное, агрегированное описание которых позволяет пользователю получить ценную информацию. С другой стороны, часто для принятия решений важно понять различие двух или более понятий, классов.

Анализ ассоциаций. Эта задача имеет обширные приложения в области маркетинга (исследование "покупательской корзины") и в ряде других приложений. В частности, результаты анализа ассоциаций позволяют получать паттерны типа ассоциативных правил, которые далее могут использоваться для формирования продукционных баз знаний в системах принятия решений, обнаружения причин отказов аппаратуры, причин негативного или, наоборот, позитивного развития событий и т.п.

Классификация. Задача отнесения отдельного примера к одному из нескольких классов. Является на данный момент одной из превалирующих задач DM (типичный представитель – задача обнаружения вторжений в компьютерной сети (intrusion detection)).

Регрессионный анализ. Задача нахождения функции, задающей отношение вектора вещественных переменных в момент времени к вектору тех же (либо других) вещественных переменных в момент времени . В общем случае данная пара векторов может не зависеть от времени.


Смотрите также файлы