Файл: Сущность оперативной аналитической обработки данных (OLAP).pdf
Добавлен: 02.07.2023
Просмотров: 283
Скачиваний: 6
6. Равноправие измерений — OLAP-система должна поддерживать многомерную модель, в которой все измерения равноправны. При необходимости дополнительные характеристики могут быть предоставлены отдельным измерениям, но такая возможность должна быть предоставлена любому измерению.
7. Динамическое управление разреженными матрицами — OLAP-система должна обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную степень разреженности данных.
8. Поддержка многопользовательского режима — OLAP-система должна предоставлять возможность работать нескольким пользователям совместно с одной аналитической моделью или создавать для них различные модели из единых данных. Из-за возможности чтения и записи данных, система должна обеспечивать целостность и безопасность информации.
9. Неограниченные перекрестные операции — OLAP-система должна обеспечивать сохранение функциональных отношений, описанных с помощью определенного формального языка между ячейками гиперкуба при выполнении любых из возможных четырех операций: среза, вращения, консолидации или детализации. Система должна самостоятельно выполнять преобразование установленных отношений, не требуя от пользователя их переопределения.
10. Интуитивная манипуляция данными — OLAP-система должна предоставлять способ выполнения операций среза, вращения, консолидации и детализации над гиперкубом без необходимости пользователю совершать множество действий с интерфейсом. Измерения, определенные в аналитической модели, должны содержать всю необходимую информацию для выполнения всех возможных операций над гиперкубом.
11. Гибкие возможности получения отчетов — OLAP-система должна поддерживать различные способы визуализации данных, т. е. отчеты должны представляться в любой возможной ориентации. Средства формирования отчетов должны представлять синтезируемые данные или информацию, следующую из модели данных в ее любой возможной ориентации.
12. Неограниченная размерность и число уровней агрегации — исследование о возможном числе необходимых измерений, требующихся в аналитической модели, показало, что одновременно может использоваться до девятнадцать измерений. Отсюда вытекает настоятельная рекомендация, чтобы аналитический инструмент мог одновременно предоставить не меньше пятнадцати измерений, а предпочтительнее двадцати измерений. Более того, каждое из общих измерений не должно быть ограничено по числу определяемых пользователем-аналитиком уровней агрегации и путей консолидации.
Набор этих требований, послуживших де-фактором определением OLAP, довольно часто вызывает разнообразные нарекания, к примеру, принципы 1, 2, 3, 6 считаются требованиями, а принципы 10, 11 — неформализованными пожеланиями. Таким образом, приведенные 12 требований Кодда никак не дают возможность точно установить OLAP. В 1995 г. Кодд добавил ещё 6 правил:
1. Пакетное извлечение против интерпретации — OLAP-система обязана в одинаковой степени продуктивно гарантировать доступ как к своим, так и к внешним данным.
2. Поддержка всех моделей OLAP-анализа — OLAP-система обязана сохранять все без исключения 4 модели анализа данных, определенные Коддом: стереотипную, толковательную, умозрительную и категориальную.
3. Обработка не налаженных данных — OLAP-система должна быть интегрирована с не налаженными источниками данных. Изменения данных, выполненные в области OLAP, не должны приводить к переменам данных, хранимых в первоначальных внешних концепциях.
4. Сохранение результатов OLAP: хранение их в отдельности с первоначальных данных — OLAP-система, функционирующая в режиме чтения записи, уже после изменения первоначальных данных должна сохранять итоги отдельно друг от друга, т.е. обеспечивать безопасность абсолютно всех начальных данных.
5. Исключение отсутствующих значений — OLAP-система, показывая данные пользователю, должна устранять все без исключения недостающие значения, т.е. они должны различаться от нулевых значений.
6. Обработка отсутствующих значений — OLAP-система должна избегать все без исключения отсутствующие значения без учета их источника. Данная характерная черта сопряжена с семнадцатым правилом.
Кроме того, Кодд разбил все восемнадцать правил на четыре группы, и назвал их особенностями. Группы получили названия: В, S, R и D.
Основные особенности (В) включают следующие правила:
- многомерное концептуальное представление данных (правило 1);
- интуитивное манипулирование данными (правило 10);
- доступность (правило 3);
- пакетное извлечение против интерпретации (правило 13);
- поддержка всех моделей OLAP-анализа (правило 14);
- архитектура "клиент-сервер" (правило 5);
- прозрачность (правило 2);
- многопользовательская поддержка (правило 8).
- Специальные особенности (S):
- обработка ненормализованных данных (правило 15);
- сохранение результатов OLAP: хранение их отдельно от исходных данных (правило 16);
- исключение отсутствующих значений (правило 17);
- обработка отсутствующих значений (правило 18).
- Особенности представления отчетов (R):
- гибкость формирования отчетов (правило 11);
- стандартная производительность отчетов (правило 4);
- автоматическая настройка физического уровня (измененное оригинальное правило 7).
- Управление измерениями (D):
- универсальность измерений (правило 6);
- неограниченное число измерений и уровней агрегации (правило 12);
- неограниченные операции между размерностями (правило 9).
1.2. История создания технологии
Концепция обработки данных на многомерных массивах не считается новой. По сути она восходит к 1962 г., когда Ken Iverson издал собственную книгу “Язык программирования” (“A Programming Language”, APL). Первая фактическая реализация APL произошла в запоздалых 60-х фирмой IBM. APL – это весьма изящный, математически установленный стиль с многомерными неустойчивыми и обрабатываемыми операциями. Он подразумевался как оригинальное мощное средство по работе с многомерными переустройствами согласно сравнению с иными практическими стилями программирования.
Но концепция длительное время не приобретала общественного использования, так как не наступило ещё время графических интерфейсов, печатающих устройств значительного качества, а отображение греческих знаков призывало специальных экранов, клавиатур и печатающих приборов. Позже английские слова в некоторых случаях применяли для смены греческих операторов, но борцы за чистоту APL прекратили попытки популяризации их обожаемого языка. APL также поглощал механические средства. В те дни его применение призывало крупных расходов. Программы весьма медленно выполнялись и, кроме того, сам их запуск обходился весьма недешево. Требовалось немало памяти, по тем временам просто шокирующие размеры (приблизительно 6 МБ).
Однако недовольство от этих начальных ошибок не убила идею. Она применялась во многих деловых приложениях 70-х, 80-х годов. Многие из этих приложений обладали особенностями нынешних систем аналитической обрабатывания. Таким образом, IBM создала операционную систему для APL, названную VSPC, и определенные люди полагали её идеальной средой для индивидуального применения, сейчас электронные таблицы не стали повсеместно распространены.
Однако APL был весьма непростой в использовании, тем более что каждый раз появлялись несоответствия между оснащением и самим языком, на котором делались попытки его осуществлении.
В 80-х годах APL стал доступен на индивидуальных машинах, однако не нашел рыночного использования. Альтернативой было программирование многомерных приложений с применением массивов в иных языках. Это было весьма серьезной проблемой, в том числе и для профессиональных разработчиков программного обеспечения, что заставляло ждать последующего поколения многомерных программных продуктов.
В 1972 г. несколько прикладных многомерных программных продуктов, прежде использовавшихся в учебных целях, отыскали коммерческое использование: Express. Он в полностью переписанном виде остаётся и в настоящее время, но уникальные концепции 70-х годов прекратили являться актуальными. На сегодняшний день, в 90-х, Express считается одной из более известных OLAP-технологий, и Oracle будет продвигать его и дополнять новейшими способностями.
Больше многомерных продуктов возникло в 80-х годах. В начале десятилетия – продукция с названием Stratagem (позже именуемый Acumate). Который ещё продвигался вплоть до начала 90-х. На сегодняшний день, в отличие от Express, почти не применяется.
Comshare System W был многомерным продуктом другого стиля. Предложенный в 1981 г., он был первоначальным, где планировалась значительная ориентированность на конечного пользователя и на разработку финансовых дополнений. Он привнёс немало концепций, которые, разумеется, никак не были хорошо адаптированы, такие, как полностью непроцедурные принципы, полноэкранный просмотр и исправление многомерных данных, автоматическое перевычисление и пакетная интеграция с реляционными данными. Но Comshare System W был довольно тяжел для аппаратного обеспечения того времени согласно сравнению с иными продуктами и меньше применялся в перспективе, реализовываться всё меньше, и в продукте не совершалось практически никаких усовершенствований. Хотя он и на сегодняшний день доступен в UNIX, он не считается клиент-серверным, что не содействует увеличению его предписания в рынке аналитических товаров. В запоздалых 80-х Comshare выпустил продукт для DOS, а позже для Windows. Данные продукты именовались Commander Prism и использовали те же концепции, что и System W.
Другой творческий продукт поздних 80-х именовался Metaphor. Он предназначался для профессиональных маркетологов. Он также предложил немало новейших концепций, которые только на сегодняшний день начинают широко применяться: клиент-серверные расчеты, применение многомерной модели в реляционных данных, объектно-ориентированная разработка приложений. Но обычное аппаратное предоставление индивидуальных машин тех дней не было способно работать с Metaphor и поставщики должны были создавать личные стандарты на персональные машины и сети. Постепенно Metaphor начал работать успешно и на серийных индивидуальных машинах, но продукт был сделан только для OS/2 и имел свой личный графический интерфейс пользователя.
Потом Metaphor заключил рекламный альянс с IBM, которой впо-следствии и был поглощён. В середине 1994 года IBM приняла решение объединять технологию Metaphor (переименованную в DIS) с собственными будущими технологиями и тем самым прекратить финансирование единичного направления, но заказчики проявили собственное недовольство и требовали продлить поддержку продукта. Помощь была продолжена для остальных клиентов, а IBM перевыпустила продукт под новым наименованием DIS, что, однако, не сделало его распространенным. Однако творческие, новаторские концепции Metaphor не были забыты и заметны на сегодняшний день в многочисленных продуктах.
В середине 80-х родился термин EIS (информационная система руководителя). Первым продуктом, ясно продемонстрировавшим это направление, был Pilot’s Command Center. Это был продукт, который позволял выполнять совместные вычисления, то, что мы называем сегодня клиент-серверными вычислениями. Поскольку мощность персональных компьютеров 80-х годов была ограничена, продукт был очень “серверо-центричен”, однако этот принцип и сегодня очень популярен. Pilot недолго продавал Command Center, но предложил много концепций, которые можно узнать в сегодняшних OLAP-продуктах, включая автоматическую поддержку временных промежутков, многомерные клиент-серверные вычисления и упрощённое управление процессом анализа (мышь, чувствительные экраны и т.п.). Некоторые из этих концепций были повторно применены позднее в Pilot Analysis Server.
В конце 80-х электронные таблицы были доминирующими на рынке инструментов, предоставляющих анализ конечным пользователям. Первая многомерная электронная таблица была представлена продуктом Compete. Он продвигался на рынок как очень дорогой продукт для специалистов, но поставщики не обеспечили возможность захвата рынка этим продуктом, и компания Computer Associates приобрела права на него вместе с другими продуктами, включая Supercalc и 20/20. Основным эффектом от приобретения CA Compete было резкое снижение цены на него и снятие защиты от копирования, что, естественно, способствовало его распространению. Однако он не был удачным. Compete положен в основу Supercalc 5, но многомерный аспект его не продвигается. Старый Compete всё ещё иногда используют в связи с тем, что в свое время в него были вложены немалые средства.
Фирма Lotus была следующей, кто попытался вступить на рынок мно-гомерных электронных таблиц с продуктом Improv, который запускается в NeXT машине. Это давало гарантию, как минимум, что продажи 1-2-3 не понизятся, но когда этот со временем был выпущен под Windows, Excel ранее имел значительную часть рынка, что не разрешило Lotus внести какие-либо перемены в разделение рынка. Lotus, подобно CA с Compete, переместила Improv в нижнюю часть рынка, но и это не стало условием успешного продвижения в рынке, и новейшие исследования в данной сфере не приобрели продолжения. Обнаружилось, что пользователи индивидуальных ПК выбрали электронные таблицы 1-2-3 и не интересуются новыми многомерными способностями, в случае если они не полностью совместимы с их прежними таблицами. Так же концепции небольших, настольных электронных таблиц, предлагаемых как индивидуальные приложения, в реальности не стали комфортными и не прижились в реальном деловом обществе. Microsoft вышла по данному пути, добавив PivotTables (в русской редакции это называется “сводные таблицы”) к Excel. Хотя немногие пользователи Excel приобрели выгоду от использования данной способности, это, вероятно, исключительный факт широкого применения в обществе возможностей многомерного анализа просто потому, что в мире весьма немало пользователей Excel.