Файл: Языки гипертекстовой разметки (Технологии хранения данных).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 28.03.2023

Просмотров: 182

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Концепция складирования данных появилась как отдельный раздел практических технологий на границе технологии создания баз данных, компьютерного анализа данных и систем поддержки принятия решений - DSS. Концепция складирования данных не является абсолютом, она получает свое развитие и эволюцию. Она находит свое применение для широкого класса задач и приложений в бизнесе, науке и современных технологиях. [7]

Основной предпосылкой разработки концепции складирования данных послужила возникшая потребность администрацией множества компаний и бизнес - организаций в анализе имеющихся очень больших электронных массивов данных.

Упрощенная принципиальная схема функционирования организации и роль и место анализа непрерывным потоком поступающей информации представлена на рисунке 7.

Рисунок 7 – Организация информационных потоков на предприятии

В процессе выполнения производственных процессов и административно-хозяйственной деятельности компании, организации и предприятия накопили огромные объемы данных.

Эти данные накоплены как на традиционных бумажных носителях, так и на современных цифровых носителях в цифровой форме.

Такие наборы данных, накопленные годами коллекции информации, несут в себе огромный потенциал и широкие возможности по извлечению свежей и современной аналитической информации, на основе которой возможно и необходимо строить стратегию действий и развития организации, выявлять тенденции развития рынка, находить новые решения, обусловливающие успешное развитие в условиях конкурентной борьбы. Для множества предприятий осуществление такого анализа является обязательной частью их ежедневной деятельности, другие организации только приступают к активному использованию такого анализа.

Системы, базирующиеся на фундаменте информационной технологии складирования данных, характеризуются рядом важных особенностей, выделяющих их как новый класс информационных систем. [1]

К указанным особенностям специалисты относят следующие факторы:

  • предметная ориентация системы;
  • интегрированность хранимых в системе данных, собранных из различных источников;
  • инвариантность данных во времени;
  • относительно высокая стабильность данных;
  • необходимость поиска компромисса в избыточности данных.[14]

Особенности систем складирования данных представлены на рисунке 8.


Рисунок 8 – Особенности складирования данных

2.2 Хранилище данных

Хранилище данных - Data warehousing - это зона складирования накапливаемых в системе данных, а также информационный источник для обоснованного принятия эффективных решений и развития задач анализа данных. Обычно в хранилище данных хранятся очень большие объемы информации. [3]

Упрощенная схема постулирует, что хранилище данных управляет данными, собранными как из операционных систем компании – On Line Transactions Processing – так и из источников, находящихся на внешних источниках данных, длительное время хранящихся в системе.

Одной из главных целей формирования и использования систем складирования данных является их ориентация на анализ накопленных данных. Структурирование данных в хранилищах данных должно быть реализовано таким образом, чтобы собранные и проанализированные данные эффективно использовались в аналитических приложениях – Analytical Applications.

Проблемы анализа собранных данных ставились и решались и до появления концепции складирования данных. Как результат в распоряжении аналитиков появился обширный набор пакетов программных продуктов для анализа и систематизации данных с целью принятия эффективных решений.

Основным отличием применения концепции складирования данных является структуризация, систематизация, классификация, фильтрация и другие направления обработки значительных по объему массивов электронной информации в форме, пригодной и удобной для анализа, визуализации результатов анализа и производства корпоративной отчетности.

История появления хранилищ данных ведет свою историю от концепции баз данных в качестве метода представления и накопления информации в электронном виде. Эта концепция сформировалась к середине шестидесятых годов прошлого века.

Первая система управления базами данных была разработана в 1969 году.

В 1970 году была предложена реляционная модель данных и на ее основе начали активно реализовываться популярные и сегодня реляционные системы управления базами данных. В рамках реляционного подхода с унифицированных позиций были решены многие задачи операционной (транзакционной) обработки данных.

Интенсивное накопление электронных информационных массивов информации различных институтов и организаций начало набирать активные обороты с середины восьмидесятых годов прошлого века.

Приводятся примеры о том, что в начале девяностых годов двадцатого века только в области химических дисциплин было зарегистрировано более 7000 библиографических, фактографических и смешанных баз данных.


В это время появилось определенное понимание того, что сбор данных в электронном виде – не самоцель, накопленные информационные массивы должны приносить пользу и могут быть использованы для эффективного анализа данных и быть полезны.

Первым, кто осознал этот факт, были менеджеры в области бизнеса и масштабного производства товаров и услуг. Накопленная информация несет в себе «информационный снимок» хронологии ее ситуации на рынке. Анализ развития административно-хозяйственной активности компании дает возможность значительно увеличить эффективность управления деятельностью, адекватно и наилучшим образом организовать взаимоотношения с клиентами, производство и сбыт товаров и услуг, минимизировать расходы.

Сегодня задачи анализа накопленных данных возложены на компьютерные информационные системы.[9]

Технологии баз данных и автоматизированных информационных систем активно используются для осуществления функции сбора и хранения данных, учета материальных и информационных объектов, поиска информации. В то же время аналитические возможности таких систем ограничены, поэтому разработка специальных технологий и приложений для управления анализом накопленных актуальны.

Предпосылки разработки хранилищ данных представлены на рисунке 9.

Рисунок 9 – Причины появления систем складирования данных

Созданию как централизованных, так и распределенных хранилищ данных, способствовали различные факторы современного развития общества и технологий.

Среди них:

  • структурные изменения бизнеса;
  • изменение требований пользователей;
  • стандартизация программных продуктов обслуживания бизнеса;
  • активное развитие технологий.[12]

Обобщенно основные факторы, катализирующие процесс создания и развития концепции систем складирования данных и хранилищ данных, представлены на рисунке 10.

Рисунок 10 - Основные факторы активизации разработки концепции хранилищ данных

Главная позиция концепции складирования данных заключается в том, что к данным, хранимым с целью анализа, наиболее эффективный доступ может быть обеспечен исключительно при условии выделения их из операционной (транзакционной) системы и помещения их в независимую систему складирования данных.

Такой подход сложился исторически. Ограниченность ресурсов аппаратного обеспечения и требование сохранности информации требовали создания резервных архивов данных на внешних магнитных носителях вне такой системы.


Специалисты указывают определенные причины необходимости разделения данных систем складирования данных и систем операционной обработки данных:

  • отличия целевых требований к системам складирования данных и OLTP-системам (Online Transaction Processing - транзакционная система — обработка транзакций в реальном времени);
  • необходимость накапливать информацию в хранилищах данных из многочисленных информационных источников. Это означает, что в случае, если данные создаются в самой OLTP-системе, то для системы складирования данных в подавляющем большинстве случаев информация генерируется вне ее;
  • информация, попадая в хранилище данных, остается в исключительном большинстве случаев неизменной;
  • информация в хранилище данных сохраняется в течение длительного времени.[2]

Схема разделения данных для анализа и оперативной обработки представлена на рисунке 11.

Рисунок 11 - Схема разделения данных для анализа и оперативной обработки

В настоящее время существует большое разнообразие распределенных хранилищ данных, разработанных для различных отраслей производства и с разными целями.

2.3 Классификация хранилищ данных

В качестве классических архитектур систем складирования данных специалисты выделяют следующие:

  • системы с глобальным хранилищами данных;
  • системы с независимыми киосками данных;
  • системы с интегрированными киосками данных;
  • системы, разработанные на основе комбинации из вышеуказанных архитектур.

Глобальным хранилищем данных – Global data warehouse- называется хранилище данных, в котором хранятся и поддерживаются все данные предприятия или их подавляющая часть.[20]

Такое хранилище является наиболее полно интегрированным хранилищем данных с большой степенью активности доступа к консолидированной информации и использованием его всеми отделениями предприятия или его администрацией в пределах базовых направлений деятельности предприятия.

Глобальное хранение данных проектируется и конструируется на базе нужд аналитической информационной поддержки предприятия в целом. Оно можно рассматриваться в качестве как общего репозитория для информации, обеспечивающей принятие эффективных решений для ведения бизнеса.

В физическом плане глобальное хранилище данных не обязательно должно быть реализовано в виде централизованного хранилища. Понятие «глобальное» применяется для демонстрации масштаба применения и организации доступа к данным в рамках всего предприятия.


Два основных архитектурных решения для глобальных хранилищ данных представлены на рисунке 12.

Рисунок 12 – Архитектурные решения для распределенного хранилища данных

2.4 Типовые технологические решения организации хранилищ данных

На практике используется несколько способов реализации хранилищ данных в рамках концепции и типовой архитектуры. [17]

Виртуальное хранилище данных.

Доступ к информации в режиме реального времени обеспечивается архитектурой посредством прикладного программного обеспечения промежуточного слоя. Базой данного решения выступает репозиторий метаданных. Репозиторий метаданных определяет источники информации, процедуры их начальной обработки, а также форматы представления информации итоговому клиенту.

В качестве недостатков такого решения отмечают интенсивный сетевой трафик с вытекающими снижением производительности несущей системы и угрозами нарушения целостности данных в результате ошибочных действий пользователей хранилищ данных.

Киоски данных.

Архитектурное решение в виде киосков данных является облегченной вариацией хранилища данных тематической направленности. Различают киоски данных, связанные с интегрированным хранилищами данных или несвязанные (автономные).

Глобальное хранилище данных.

Архитектура определяет единственный источник интегрированной информации предприятия.

Хранилища данных с многоуровневой архитектурой (наиболее распространена трехзвенная), (корпоративные хранилища данных).

Данная архитектура представлена на рисунке 13.

Рисунок 13 – Многоуровневая архитектура хранилищ данных

В архитектуре технологически реализованы три уровня:

  • первый уровень реализует корпоративное хранилище данных предприятия;
  • второй уровень поддерживает связанные киоски данных тематической направленности на базе многомерной системы управления базами данных;
  • третий уровень – это реализация клиентских приложений пользователей с размещенными на них средствами информационного анализа.

Встроенные (комбинированные) хранилища данных.

Архитектура комбинированных хранилищ данных позиционирует собой хранилища данных, которые органически встраиваются в виртуальное предприятие или применяются в роли элемента аналитической поддержки в информационном воплощении бизнес-функций.