Файл: "Операции, производимые с данными".pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 26.06.2023

Просмотров: 86

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Введение

Известно, что структура БД оперативных систем в высокой степени нормализована, т.е. состоит из множества таблиц, связанных между собой посредством внешних ключей. Такая нормализованная структура оптимизирована именно для быстрого поиска и обработки единичных записей.

Потребности в оперативных документах краткосрочны. С оперативными документами работают в течение какого-то времени: отслеживают оплату счета, приход денег, поставку товара и т.д. Для контроля данного процесса периодически формируются отчеты, которые имеют несколько стандартных для фирмы разновидностей и строятся путем выборки данных непосредственно из БД торговой системы. Оперативный документ, сыграв свою роль, далее в рамках торговой системы, как правило, больше не используется. Со временем растущий объем данных начинает замедлять выполнение операций, что порождает естественное желание избавиться от старых неиспользуемых данных.

Между тем в накопленных данных содержится история развития предприятия, история его взаимоотношений с поставщиками и покупателями. Данные, накопленные в предприятии, – уникальный ресурс. В результате их анализа можно было бы получить ценнейшую информацию, позволяющую принимать эффективные управленческие решения. Ценность информации, а, следовательно, и глубина анализа еще более возрастут, если использовать объединенную информацию всего предприятия, всех его систем. Но для этого руководителю может потребоваться исследование десятков тысяч комбинаций данных, не укладывающихся в имеющийся набор готовых отчетных форм.

Традиционный анализ, который, как правило, осуществляется при помощи изучения набора готовых отчетных форм, а его результатом является принятие одного из стандартных бизнес-решений, здесь явно не поможет. Если считать, что в распоряжении аналитика имеется только традиционная СУБД, то при выполнении возложенных на него обязанностей он столкнется с рядом проблем:

Построение сводных отчетов над нормализованной структурой, как правило, неэффективно: связывание большого числа таблиц в одном запросе выполняется достаточно долго, если объем этих таблиц велик; развернуть данные по любому измерению. Хранилища данных не заменяют, а дополняют традиционные реляционные базы данных с первичной информацией.

Для построения систем ОLАР используются специализированные многомерные БД либо надстройки над обычными реляционными БД. До последнего времени ОLАР-технология ассоциировалась с большими проектами по хранению массивов данных и сложными приложениями для их анализа. Сложный и дорогой ОLАР-инструментарий был доступен только очень крупным компаниям.


И все же в последнее время ситуация на рынке резко изменилась. Произошло это благодаря тому, что было найдено компромиссное решение: укомплектовать полноценным ОLАР-сервером хорошо зарекомендовавшие себя недорогие программные продукты. К таким продуктам относится, например, МS SQL сервер баз данных, начиная с версии 7 и позднее, который во всем мире активно используется для построения хранилищ данных. Компания Microsoft предпринимает ряд серьезных мер, чтобы обеспечить наилучшую поддержку хранилищ данных и построения информационных систем. Вследствие указанного изменения ситуации современные OLАР-системы анализа данных стали действительно доступны малому и среднему бизнесу.

1 Хранилища данных

1.1 Общие положения

Хранилища данных – совокупность процессов по сбору, отсеиванию, предварительной обработке информации для дальнейшего представления результирующих данных специалистам для аналитических отчетов и статистического анализа. Ральф Кинболл (автор концепции хранилищ информации) подробно описывал хранилища в качестве «места, где люди способны обрести полный доступ к личной информации».Также именно этот специалист сформулировал ключевые требования к хранилищам информации:

- поддержка внутренней непротиворечивости информации;

– поддержка высокой скорости передачи информации из хранилища;

– возможность сравнения и получения информации;

– достоверность и полнота хранимой информации;

– наличие простых в пользовании утилит просмотра информации из хранилища;

– поддержка высококачественного процесса восполнения информационной базы [19].

Всем вышеобозначенным требованиям удовлетворять чаще всего не выходит, потому для реализации хранилищ информации принято применять сразу несколько разных продуктов. Одни из них представляют собой средства хранения информации, остальные – средства для их

просмотра и извлечения, в-третьих – средства восполнения хранилищ информации. Обычное хранилище информации в основном от реляционной базы информации отличается:

1) Простая информационная база предназначается для того, чтобы оказать помощь пользователям исполнять повседневную работу, при том, что хранилища информации предназначаются четко для принятия решений;

2) Простая информационная база подвергается постоянным коррективам в рамках рабочего процесса пользователей, а хранилища информации относительно стабильно; информация в нем обновляется исходя из расписанию (к примеру, каждый час, каждый день, каждый месяц и т. д.), в идеале, сам процесс восполнения информацией за определенный промежуток времени без изменения прошлых данных находящихся в самом хранилище.


3) Простая база информации чаще всего считается источником информации, попадающей в хранилище, помимо прочего хранилище может быть пополнено благодаря внешним источникам (к примеру, сжатию данных).

1.2 Принципы построения

Данные, которые грузятся в хранилище, обязаны интегрироваться в единую структуру, которая отвечает целям анализа информации. В то же время снижаются к минимуму все существующие несоответствия между показателями из разных оперативных систем, в хранилище обозначаются, выражаются общим образом. Информация интегрирована на разных уровнях: на уровне атрибута, ключа, на структурном,описательном уровне и тому подобное. Общие показатели, общая обработка информации консолидируются и считаются единообразными для всех данных, что схожи или подобны в хранилище данных. В то же время данные структурируются по различным ступеням детализации:

– высокий уровень суммаризации;

– низкий уровень суммаризации;

– текущие детальные данные [4].

Хранилища стоит рассматривать в качестве набора моментальных снимков состояния информационных данных: есть возможность восстановить общую картину на любой момент в прошлом. Временной атрибут всегда явно присутствует в структурах информационного хранилища.

Однажды попав в хранилище, информация никогда уже не может быть изменена, а лишь восполнена новыми информационными данными из оперативных систем, где вся информация время от времени обновляется и меняется. Новая информация обобщается по мере поступления с накопленными ранее данными в информационном хранилище [13].

1.3 Основные компоненты хранилища данных

Применение технологии хранилищ информации предполагает существование в системе таких компонентов:

– оперативных источников информации;

– метаданных – включая каталог хранилища, основные правила преобразования информации в момент их загрузки из оперативных информационных баз;

– средств трансформации и переноса информации;

– OLAP хранилища;

– реляционного хранилища;

– средств анализа и доступа информации.

Назначение вышеобозначенных компонентов таково. Оперативная информация собираются из разных источников. Поступившая оперативная информация очищается, интегрируется, формируется в реляционных хранилищах. Они же в свою очередь доступны для проведения анализа с помощью средств построения отчетов. После этого информация (частично или полностью) готовится с применением средств переноса, трансформации информации для анализа OLAP, что воплощается реализуется использованием средств анализа и доступа информации. В то же время они могут быть загружены в отдельную информационную базу OLAP или, как вариант, оставаться в специальном реляционном хранилище [7].


Важнейший элемент хранилища считаются метаданные, то есть информация о размещении, структуре, трансформации информации, что применяется с разными процессами хранилища. Метаданные часто могут быть востребованы для разных целей, к примеру: загрузки и извлечения информации; обслуживании запросов и хранилища. Метаданные для разных процессов способны обладать разной структурой, то есть для одного и того же элемента информации может существовать сразу несколько вариаций метаданных.

Таким образом информационные хранилища считаются структурированными. Они в себе содержат основные информационные данные, что формируют общий источник для обработки информации по разным системах поддержки принятия решений. Простейшие данные, которые присутствуют в хранилище, представить можно в разных формах. Информационные хранилища довольно велики, потому что в них содержатся детализированные и интегрированные показатели.

Данные характеристики принято считать общими для разных хранилищ информации. Однако, несмотря на тот факт, что сами хранилища характеризуются общими свойствами, различные виды хранилищ обладают своими неповторимыми особенностями и показателями [10].

1.4 Технологии управления информацией

Для эффективной работы с большими объемами важной информации необходимы специальные программы и базы данных, обладающие определенными качествами. В ходе обсуждения различных проблем с хранилищами данных эти качества уже были рассмотрены подробно. Однако стоит напомнить, что к любым СУБД предъявляются следующие требования:

- функциональная возможность обработки данных на этапе загрузки;

- высокая скорость загрузки информации;

- наличие необходимых средств управления качеством данных;

- достаточно широкая масштабируемость по количеству пользователей и размеру самой базы;

- высокая скорость обработки запросов;

- организация удобной сети хранилищ информации;

- наличие всех необходимых административных инструментов управления;

- поддержка функции многомерного интегрированного анализа;

- широкий набор возможных функций для исполнения запросов пользователей.

1.5 OLAP технология

Комплекс программ OLAP представляет собой систему многомерного анализатора данных. Эти программы составляют основной фундамент при организации хранилищ данных. Данная технология была описана еще в 1993 году ученым Эдгером Коддом. Именно он разработал упрощенную концепцию хранения данных [8].


Любое хранилище информации содержит сведения из разнообразных источников в разной форме. Чтобы интегрировать их в общую систему информации, необходимо упорядочить первичную информацию. Для поддержки концепции нужны специальные средства управления. К ним можно отнести инструментальные компоненты технологии OLAP.

В результате тщательной работы над системой OLAP появилась возможность представить ее в качестве удобного инструмента для работы пользователей любого уровня. Благодаря понятным и простым механизмам администрирования, информация в СУБД стала доступна широкому кругу лиц. Создателям также удалось установить своеобразную «фильтрацию» по уровню доступа к данным. Система OLAP помогла офисным сотрудникам избавиться от масштабной бумажной работы благодаря тому, что они стали самодостаточными. В ходе работы с СУБД у пользователей появилась возможность оперативно вносить изменения, не создавая бумажные отчеты. В свою очередь, руководство стало получать доступ к сводной информации в виде готовых отчетов и таблиц прямо из системы [18].

Основная концепция технологии OLAP заключается в многомерности представления данных. Они организуются в форме куба по различным измерениям. При этом уже имеющиеся хранилища не удаляются, а лишь дополняются необходимой информацией. Для построения эффективной системы работы с OLAP используется специальная многомерная база данных, совместимая с обыкновенными реляционными базами.

Достаточно долгое время технология OLAP ассоциировалась с большими и объемными проектами по сохранению данных, а также сложными приложениями для их анализа. Кроме того, инструментарий OLAP был дорогим удовольствием и его использовали только крупные компании. Но в последствие ситуация в этом деле кардинально поменялась. Это произошло только благодаря компромиссному решению создателей, которые решили укомплектовать недорогие программные продукты полноценным сервером OLAP. В качестве примеров таких продуктов можно привести сервер базы данных MS SQL 7 и более поздних версий, который повсеместно используется для активного построения архивов баз данных [15].

Компания Microsoft также постоянно предпринимает меры поддержки хранилищ баз данных и таким образом обеспечивает лучшую сохранность информации. Благодаря продуктам OLAP пользователи могут выстраивать надежные аналитические системы на основе объемных архивов информации. Поэтому современная система OLAP является идеальным инструментом для анализа информации со всех сторон. Кроме того, она стала доступна даже малому бизнесу.