Файл: Многомерное представление данных- ключевое требование к OLAP средствам.pdf

ВУЗ: Не указан

Категория: Реферат

Дисциплина: Не указана

Добавлен: 08.07.2023

Просмотров: 39

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введение

Расшифровка аббревиатуры OLAP звучит как online analytical processing. Дословный перевод этого словосочетания с английского языка – онлайновая аналитическая обработка данных. Однако англоязычное понятие онлайна несколько изменилось с тех времен, когда термин OLAP зазвучал в миру программистов и аналитиков впервые. В ту пору онлайн означал скорее интерактивность процесса обработки, нежели факт присутствия в сети интернет, как это принято трактовать сейчас.

Итак, OLAP – это технология интерактивной обработки данных. Возможности технологии сосредоточены в её быстродействии, с которым OLAP анализирует сложные пользовательские запросы к хранилищу данных. Также, технология включает в себя возможность развертывания разнообразных отчетов и документов.

Нужно ли говорить, что за более чем 30-ти летнюю историю развития технология нашла широчайшее применение практически во всех сферах бизнеса. Продажи, маркетинг, управление, экономический анализ, аудит – нет такого направления работы, где технология OLAP была бы бесполезной.

История OLAP

Возникновение систем OLAP было спровоцировано развитием систем поддержки принятия решений (DSS — Decision Support Systems). Первой в своём роде стала IBM System 360 – масштабная система корпоративного менеджмента, появившаяся в 1965 году. До её появления такой масштаб системы данных казался несбыточной мечтой, подкрепленной нереальностью финансовых затрат на проектирование и содержание, даже будь эта мечта реализованной. Первые системы информационного менеджмента, MIS — management information systems, имели цель оповещения руководителей упорядоченными массивами данных о жизнедеятельности предприятия.

К началу 70-ых годов системы поддержки принятия решений оказались на волне популярности, а продукты этой отрасли уже насчитывали сотни наименований. Дальше – больше. Так, к середине 70-ых годов проблемам поддержки принятия решений в лице компьютерных технологий посвящались форумы и собрания, академические исследования и научные конференции.

К концу 70-ых выделились критерии оценки систем, разрабатываемых на основе технологии DSS. В ту пору и стали выделяться первые интерактивные компьютерные приложения, способные структурировать небольшие массивы данных для решения информационных задач.

Лишь к началу 90-ых годов интерактивные терминалы стали сменяться персональными компьютерами. В итоге, изменение архитектуры DSS-систем произошло, как говориться, в корне. Системы перестали быть сервер-ориентированными, вместо чего появились решения типа «клиент-сервер».


Следующему ключевому событию в истории технологии OLAP суждено было случиться в 1993 году. В это время Эдгар Кодд предложил 12 критериев соответствия приложения технологии OLAP. Немногим позже, критерии были сформированы в тест, получивший название FASMI.

Многомерная структура данных

Существуют следующие основные характеристики OLAP:

  1. Многомерные представления данных - обеспечивает основу для аналитической обработки посредством гибкого доступа к корпоративным данным. Оно позволяет пользователям анализировать данные в любом измерении и на любом уровне агрегации.
  2. Поддержка сложных вычислений - является основой программного обеспечения OLAP.
  3. Временная разведка - используется для оценки эффективности любого аналитического приложения на протяжении определенного отрезка времени. Например, в этом месяце по сравнению с прошлым месяцем, в этом месяце по сравнению с тем же месяцем прошлого года.

Одной из основных характеристик онлайн-аналитической обработки является многомерная структура данных. Куб может иметь несколько измерений. Благодаря такой модели весь процесс интеллектуального OLAP-анализа является простым для менеджеров и руководителей, поскольку объекты, представленные в ячейках, являются бизнес-объектами реального мира. Кроме того, эта модель данных позволяет пользователям обрабатывать не только структурированные массивы, но и неструктурированные и полуструктурированные. Все это делает их особенно популярными для анализа данных и приложений BI.

Одним из основных компонентов концепций OLAP является сервер на стороне клиента. Помимо агрегирования и предварительной обработки данных из реляционной базы, он предоставляет расширенные параметры расчета и записи, дополнительные функции, основные расширенные возможности запросов и другие функции. В зависимости от примера приложения, выбранного пользователем, доступны различные модели данных и инструменты, включая оповещение в реальном времени, функцию для применения сценариев «что, если», оптимизацию и сложные OLAP-отчеты.

Типы многомерных OLAP-cистем

В рамках OLAP -технологий на основе того, что многомерное представление данных может быть организовано как средствами реляционных СУБД, так многомерных специализированных средств, различают три типа многомерных OLAP -систем:


- многомерный (Multidimensional) OLAP- MOLAP

- реляционный (Relation) OLAP - ROLAP

- смешанный или гибридный ( Hibrid ) OLAP - HOLAP

Выше по существу изложены существо и различия между многомерной и реляционной моделью OLAP -систем. Сущность смешанной OLAP -системы заключается в возможности использования многомерного и реляционного подхода в зависимости от ситуации: размерности информационных массивов, их структуры, частости обращений к тем или иным записям, вида запросов и т.д.

Рассмотрим подробнее достоинства и недостатки приведённых разновидностей OLAP -систем.

Многомерные OLAP -системы

В многомерных СУБД данные организованы не в виде реляционных таблиц, а упорядоченных многомерных массивов или гиперкубов, когда все хранимые данные должны иметь одинаковую размерность, что означает необходимость образовывать максимально полный базис измерений. Данные могут быть организованы в виде поликубов , в этом варианте значения каждого показателя хранятся с собственным набором измерений, обработка данных производится собственным инструментом системы.

Достоинствами MOLAP являются:

- более быстрое, чем при ROLAP получение ответов на запросы -з атрачиваемое время на один-два порядка меньше;

Прогнозирования являются стержнем любой торговой системы, поэтому профессионально составленные прогнозы Forex могут сделать Вас ужасно богатым.

- из-за ограничений SQL затрудняется реализация многих встроенных функций.

К ограничениям MOLAP относятся:

- сравнительно небольшие размеры баз данных - предел десятки Гигабайт;

- за счёт денормализации и предварительной агрегации многомерные массивы используют в 2,5-100 раз больше памяти, чем исходные данные;

- отсутствуют стандарты на интерфейс и средства манипулирования данными;

- имеются ограничения при загрузке данных.

Реляционные OLAP -системы

В настоящее время в массовых средствах, обеспечивающих аналитическую работу, преобладает использование инструментов на основе реляционного подхода.

Достоинствами ROLAP- систем являются:

- возможность оперативного анализа непосредственно содержащихся в хранилище данных, так как большинство исходных баз данных -р еляционного типа;

- при переменной размерности задачи выигрывают ROLAP , так как не требуется физическая реорганизация базы данных;


- ROLAP - системы могут использовать менее мощные клиентские станции и серверы, причём на серверы ложится основная нагрузка по обработке cложных SQL -запросов;

- уровень защиты информации и разграничения прав доступа в реляционных СУБД несравненно выше, чем в многомерных.

Недостатком ROLAP- систем является меньшая производительность, необходимость тщательной проработки схем базы данных, специальная настройка индексов, анализ статистики запросов и учёт выводов анализа при доработках схем баз данных, что приводит к значительным дополнительным трудозатратам.

Выполнение же этих условий позволяет при использовании ROLAP -систем добиться схожих с MOLAP -системами показателей в отношении времени доступа и даже превзойти в экономии памяти.

Гибридные OLAP -системы

Представляют собой сочетание инструментов, реализующих реляционную и многомерную модель данных.

При таком подходе используются достоинства первых двух подходов и компенсируются их недостатки. В наиболее развитых программных продуктах такого назначения реализован именно этот принцип.

Использование гибридной архитектуры в OLAP -системах - это наиболее приемлемый путь решения проблем в применении программных инструментальных средств в многомерном анализе.

Каждый из этих способов имеет свои преимущества и недостатки и должен применяться в зависимости от условий – объема данных, мощности реляционной СУБД и т. д.

При хранении данных в многомерных структурах возникает потенциальная проблема “разбухания” за счет хранения пустых значений. Ведь если в многомерном массиве зарезервировано место под все возможные комбинации меток измерений, а реально заполнена лишь малая часть (например, ряд продуктов продается только в небольшом числе регионов), то большая часть куба будет пустовать, хотя место будет занято. Современные OLAP-продукты умеют справляться с этой проблемой.

Структура OLAP-куба

В процессе анализа данных часто возникает необходимость построения зависимостей между различными параметрами, число которых может быть значительным.

Под измерением будем понимать последовательность значений одного из анализируемых параметров. Например, для параметра "время" это - последовательность дней, месяцев, кварталов, лет.

Возможность анализа зависимостей между различными параметрами предполагает возможность представления данных в виде многомерной модели - гиперкуба (рисунок 1), или OLAP-куба.


рис 1

Оси куба представляют собой измерения, по которым откладывают параметры, относящиеся к анализируемой предметной области, например, названия товаров и названия месяцев года.

На пересечении осей измерений располагаются данные, количественно характеризующие анализируемые факты - меры, например, объемы продаж, выраженные в единицах продукции.

В простейшем случае двумерного куба получается таблица, показывающая значения уровней продаж по товарам и месяцам.

Дальнейшее усложнение модели данных возможно по нескольким направлениям:

- увеличение числа измерений данные о продажах не только по месяцам и товарам, но и по регионам. В этом случае куб становится трехмерным;

- усложнение содержимого ячейки например, нас может интересовать не только уровень продаж, но и чистая прибыль или остаток на складе. В этом случае в ячейке будет несколько значений;

- введение иерархии в пределах одного измерения общее понятие "время" связано с иерархией значений: год состоит из кварталов, квартал из месяцев и т.д.

Над гиперкубом могут выполняться следующие операции:

  1. Срез (рисунок 2) - формируется подмножество многомерного массива данных, соответствующее единственному значению одного или нескольких элементов измерений, не входящих в это подмножество.

рис 2

  1. Вращение (рисунок 3) - изменение расположения измерений, представленных в отчете или на отображаемой странице. Например, операция вращения может заключаться в перестановке местами строк и столбцов таблицы. Кроме того, вращением куба данных является перемещение внетабличных измерений на место измерений, представленных на отображаемой странице, и наоборот.

рис 3

  1. Консолидация (рисунок 4) и детализация (рисунок 5) - операции, которые определяют переход вверх по направлению от детального представления данных к агрегированному и наоборот, соответственно. Направление детализации (обобщения) может быть задано как по иерархии отдельных измерений, так и согласно прочим отношениям, установленным в рамках измерений или между измерениями.

рис 4

рис 5

Заключение

Пользователь найдет OLAP в большинстве бизнес-приложений в разных отраслях. Используется анализ не только бизнесом, но и другими заинтересованными сторонами.