Файл: Технологии хранилищ данных.pdf

ВУЗ: Не указан

Категория: Реферат

Дисциплина: Не указана

Добавлен: 08.07.2023

Просмотров: 125

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введение

Рассмотрим фирму, которая ведет некую производственную и торговую деятельность: скажем, что-то проектирует, производит и продает. Для продажи у нее имеется, в частности, торговая система, которая учитывает движение товарных и денежных средств.

Повседневная деятельность такой фирмы сопровождается ежедневным внесением в базу данных десятков счетов, накладных и других оперативных документов. Реляционные СУБД, рассмотренные выше, проектировались и используются для выполнения именно такой работы – для управления большим потоком транзакций, каждая из которых связана с внесением небольших изменений в оперативные данные предприятия. Системы такого типа называются системами оперативной обработки транзакций или OLTP (Online Transaction Processing) Будем называть их просто оперативными системами.

Известно, что структура БД оперативных систем в высокой степени нормализована, т.е. состоит из множества таблиц, связанных между собой посредством внешних ключей. Такая нормализованная структура оптимизирована именно для быстрого поиска и обработки единичных записей.

Потребности в оперативных документах краткосрочны. С оперативными документами работают в течение какого-то времени: отслеживают оплату счета, приход денег, поставку товара и т.д. Для контроля данного процесса периодически формируются отчеты, которые имеют несколько стандартных для фирмы разновидностей и строятся путем выборки данных непосредственно из БД торговой системы. Оперативный документ, сыграв свою роль, далее в рамках торговой системы, как правило, больше не используется. Со временем растущий объем данных начинает замедлять выполнение операций, что порождает естественное желание избавиться от старых неиспользуемых данных.

Между тем в накопленных данных содержится история развития предприятия, история его взаимоотношений с поставщиками и покупателями. Данные, накопленные в предприятии, – уникальный ресурс. В результате их анализа можно было бы получить ценнейшую информацию, позволяющую принимать эффективные управленческие решения. Ценность информации, а, следовательно, и глубина анализа еще более возрастут, если использовать объединенную информацию всего предприятия, всех его систем. Но для этого руководителю может потребоваться исследование десятков тысяч комбинаций данных, не укладывающихся в имеющийся набор готовых отчетных форм.

Следует отметить, что подобные исследования редко проводятся самим руководителем. Чаще он приглашает или выращивает в своей фирме аналитика, который хочет извлечь из данных все, что можно. Например, понять, какой тип клиентов наиболее перспективен для фирмы, или какие скидки будут оптимальными этой весной. Но сделать это оказывается не так-то просто.


Традиционный анализ, который, как правило, осуществляется при помощи изучения набора готовых отчетных форм, а его результатом является принятие одного из стандартных бизнес-решений, здесь явно не поможет. Если считать, что в распоряжении аналитика имеется только традиционная СУБД, то при выполнении возложенных на него обязанностей он столкнется с рядом проблем:

Построение сводных отчетов над нормализованной структурой, как правило, неэффективно: связывание большого числа таблиц в одном запросе выполняется достаточно долго, если объем этих таблиц велик; развернуть данные по любому измерению. Хранилища данных не заменяют, а дополняют традиционные реляционные базы данных с первичной информацией.

Для построения систем ОLАР используются специализированные многомерные БД либо надстройки над обычными реляционными БД. До последнего времени ОLАР-технология ассоциировалась с большими проектами по хранению массивов данных и сложными приложениями для их анализа. Сложный и дорогой ОLАР-инструментарий был доступен только очень крупным компаниям.

И все же в последнее время ситуация на рынке резко изменилась. Произошло это благодаря тому, что было найдено компромиссное решение: укомплектовать полноценным ОLАР-сервером хорошо зарекомендовавшие себя недорогие программные продукты. К таким продуктам относится, например, МS SQL сервер баз данных, начиная с версии 7 и позднее, который во всем мире активно используется для построения хранилищ данных. Компания Microsoft предпринимает ряд серьезных мер, чтобы обеспечить наилучшую поддержку хранилищ данных и построения информационных систем. Вследствие указанного изменения ситуации современные OLАР-системы анализа данных стали действительно доступны малому и среднему бизнесу.

Хранилища данных

Хранилища данных – это процесс сбора, отсеивания и предварительной обработки данных с целью представления результирующей информации пользователям для статистического анализа и аналитических отчетов. Ральф Кинболл (автор концепции хранилищ данных) описывал хранилища данных как «место, где люди могут получить доступ к своим данным». Он же сформулировал основные требования к хранилищам данных:

– поддержка высокой скорости данных из хранилища;

– поддержка внутренней непротиворечивости данных;

– возможность получения и сравнения данных;

– наличие удобных утилит просмотра данных хранилища;


– полнота и достоверность хранимых данных;

– поддержка качественного процесса пополнения данных.

Всем перечисленным требованиям удовлетворять зачастую не удается, поэтому для реализации хранилищ данных используют несколько продуктов. Одни из которых представляют средства хранения данных, другие – средства их извлечения и просмотра, в-третьих – средства пополнения хранилищ данных. Типичное хранилище данных как правило отличается от реляционной базы данных: 1) Обычная база данных предназначена для того, чтобы помочь пользователям выполнять повседневную работу, тогда как хранилища данных предназначены для принятия решений; 2) Обычная база данных подвержена постоянным изменениям в процессе работы пользователей, а хранилища данных относительно стабильно; данные в нем обновляются согласно расписанию (например, ежечасно, ежедневно, ежемесячно), в идеале, процесс пополнения данными за определенный период времени без изменения прежней информации находящейся уже в хранилище. 3) Обычная база данных чаще всего является источником данных попадающих в хранилище, кроме того хранилище может пополняться за счет внешних источников (например, сжатия данных).

Принципы построения

Информация, которая загружается в хранилище, должна интегрироваться в целостную структуру, отвечающую целям анализа данных. При этом минимизируются несоответствия между данными из различных оперативных систем, в хранилище именуются и выражаются единым образом. Данные интегрированы на множестве уровней: на уровне ключа, атрибута, на описательном, структурном уровне и так далее. Общие данные и общая обработка данных консолидированы и являются единообразным для всех данных, которые подобны или схожи в хранилище данных. При этом информация структурируется по разным уровням детализации:

– высокая степень суммаризации;

– низкая степень суммаризации;

– текущая детальная информация.

Хранилища можно рассматривать как набор моментальных снимков состояния данных: можно восстановить картинку на любой момент времени. Атрибут времени всегда явно присутствует в структурах данных хранилища.

Попав однажды в хранилище, данные уже никогда не изменяются, а только пополняются новыми данными из оперативных систем, где данные постоянно меняются. Новые данные по мере поступления обобщаются с уже накопленной информацией в хранилище данных.


Основные компоненты хранилища данных

Использование технологии хранилищ данных предполагает наличие в системе следующих компонентов:

– оперативных источников данных;

– средств переноса и трансформации данных;

– метаданных – включают каталог хранилища и правила преобразования данных при загрузке их из оперативных баз данных;

– реляционного хранилища;

– OLAP хранилища;

– средств доступа и анализа данных.

Назначение перечисленных компонентов таково. Оперативные данные собираются из различных источников. Поступившие оперативные данные очищаются, интегрируются и складываются в реляционные хранилище. Они уже доступны для анализа при помощи средств построения отчетов. Затем данные (полностью или частично) подготавливаются с использованием средств переноса и трансформации данных для OLAP анализа, который реализуется применением средств доступа и анализа данных. При этом они могут быть загружены в специальную базу данных OLAP или оставаться в реляционном хранилище.

Важнейшим элементом хранилища являются метаданные, т.е. данные о структуре, размещении, трансформации данных, которые используются любыми процессами хранилища. Метаданные могут быть востребованы для различных целей, например: извлечения и загрузки данных; обслуживании хранилища и запросов. Метаданные для различных процессов могут иметь различную структуру, т.е. для одного и того же элемента данных может существовать несколько вариантов метаданных.

Итак, хранилища данных являются структурированными. Они содержат базовые данные, которые образуют единый источник для обработки данных во всех системах поддержки принятия решений. Элементарные данные, присутствующие в хранилище, могут быть представлены в различной форме. Хранилища данных исключительно велики, поскольку в них содержатся интегрированные и детализированные данные.

Эти характеристики являются общими для всех хранилищ данных. Но, несмотря на то что хранилища обладают общими свойствами, разные типы хранилищ имеют свои индивидуальные особенности.

Технологии управления информацией

Для работы с хранилищем данных используются СУБД, к которым предъявляются специальные требования. Поскольку в ходе обсуждения проблем хранилищ данных эти требования либо уже обсуждались, либо присутствие их в перечне и без обсуждения интуитивно понятно, просто перечислим их:


– высокая производительность загрузки данных;

– возможность обработки данных на уровне загрузки;

– наличие средств управления качеством данных;

– высокая производительность запросов;

– широкая масштабируемость по размеру и количеству пользователей;

– возможность организации сети хранилищ данных;

– наличие средств администрации хранилищ данных;

– поддержка интегрированного многомерного анализа;

– расширенный набор функциональных средств запросов.

OLAP технология

OLAP – это технология комплексного многомерного анализа данных, это ключевой компонент организации хранилищ данных. В 1993 г. эта технология была описана Эдгером Коддом. Для упрощения анализа была предложена и разработаны концепция хранилища данных. Предполагается что такое хранилище содержит сведения, поступающие от разных источников, а так же интегрированные данные, получаемые в результате анализа первичных данных. Естественно, для поддержки предложенной концепции потребовались специальные средства управления процессом хранения и обработки информации, к которым относятся инструментальные средства OLAP технологии.

OLAP – это способ представления данных в простом и понятном для конечного пользователя виде. Назначение систем класса OLAP – предоставить пользователям гибкий, интуитивно понятный и простой доступ к данным. Наличие такого доступа позволяет отказаться от использования предопределенных отчетов, делает пользователей самодостаточными, независящими от администраторов баз данных и программистов. В основе концепции OLAP лежит принцип многомерного представления данных. Данные представляются в виде многомерного куб, причем пользователь может быстро свернуть или развернуть данные по любому измерению. Хранилища данных не измеряются, а дополняют традиционные реляционные базы данных с первичной информацией.

Для построения систем OLAP используются специализированные многомерные базы данных, либо надстройки над обычными реляционными базами данных. До последнего времени OLAP технология ассоциировалась с большими проектами по хранению массивов данных и сложными приложениями для их анализа. Сложный и дорогой OLAP инструментарий был доступен только очень крупным компаниям.

И все же в последнее время ситуация на рынке резко изменилась. Произошло это благодаря тому, что было найдено компромиссное решение: укомплектовать полноценным OLAP сервером хорошо зарекомендовавшие себя недорогие программные продукты. К таким продуктам относятся, например, MS SQL сервер баз данных, начиная с версии 7 и позднее, который во всем мире активно используется для построения хранилищ данных. Компания Microsoft предпринимает ряд серьезных мер, чтобы обеспечить наилучшую поддержку хранилищ данных и построения информационных систем. Вследствие указанного изменения ситуации современные OLAP системы анализа данных стали действительно доступны малому и среднему бизнесу.