Файл: Языки гипертекстовой разметки (Технологии хранения данных).pdf
Добавлен: 28.03.2023
Просмотров: 169
Скачиваний: 2
СОДЕРЖАНИЕ
1.1 Информация. Информационные процессы
1.2 Информационное развитие общества
1.3 Технологии хранения данных
2.1 Концепция систем хранения данных
2.3 Классификация хранилищ данных
2.4 Типовые технологические решения организации хранилищ данных
3.1 Проект распределенной гипертекстовой системы
Концепция складирования данных появилась как отдельный раздел практических технологий на границе технологии создания баз данных, компьютерного анализа данных и систем поддержки принятия решений - DSS. Концепция складирования данных не является абсолютом, она получает свое развитие и эволюцию. Она находит свое применение для широкого класса задач и приложений в бизнесе, науке и современных технологиях. [7]
Основной предпосылкой разработки концепции складирования данных послужила возникшая потребность администрацией множества компаний и бизнес - организаций в анализе имеющихся очень больших электронных массивов данных.
Упрощенная принципиальная схема функционирования организации и роль и место анализа непрерывным потоком поступающей информации представлена на рисунке 7.
Рисунок 7 – Организация информационных потоков на предприятии
В процессе выполнения производственных процессов и административно-хозяйственной деятельности компании, организации и предприятия накопили огромные объемы данных.
Эти данные накоплены как на традиционных бумажных носителях, так и на современных цифровых носителях в цифровой форме.
Такие наборы данных, накопленные годами коллекции информации, несут в себе огромный потенциал и широкие возможности по извлечению свежей и современной аналитической информации, на основе которой возможно и необходимо строить стратегию действий и развития организации, выявлять тенденции развития рынка, находить новые решения, обусловливающие успешное развитие в условиях конкурентной борьбы. Для множества предприятий осуществление такого анализа является обязательной частью их ежедневной деятельности, другие организации только приступают к активному использованию такого анализа.
Системы, базирующиеся на фундаменте информационной технологии складирования данных, характеризуются рядом важных особенностей, выделяющих их как новый класс информационных систем. [1]
К указанным особенностям специалисты относят следующие факторы:
- предметная ориентация системы;
- интегрированность хранимых в системе данных, собранных из различных источников;
- инвариантность данных во времени;
- относительно высокая стабильность данных;
- необходимость поиска компромисса в избыточности данных.[14]
Особенности систем складирования данных представлены на рисунке 8.
Рисунок 8 – Особенности складирования данных
2.2 Хранилище данных
Хранилище данных - Data warehousing - это зона складирования накапливаемых в системе данных, а также информационный источник для обоснованного принятия эффективных решений и развития задач анализа данных. Обычно в хранилище данных хранятся очень большие объемы информации. [3]
Упрощенная схема постулирует, что хранилище данных управляет данными, собранными как из операционных систем компании – On Line Transactions Processing – так и из источников, находящихся на внешних источниках данных, длительное время хранящихся в системе.
Одной из главных целей формирования и использования систем складирования данных является их ориентация на анализ накопленных данных. Структурирование данных в хранилищах данных должно быть реализовано таким образом, чтобы собранные и проанализированные данные эффективно использовались в аналитических приложениях – Analytical Applications.
Проблемы анализа собранных данных ставились и решались и до появления концепции складирования данных. Как результат в распоряжении аналитиков появился обширный набор пакетов программных продуктов для анализа и систематизации данных с целью принятия эффективных решений.
Основным отличием применения концепции складирования данных является структуризация, систематизация, классификация, фильтрация и другие направления обработки значительных по объему массивов электронной информации в форме, пригодной и удобной для анализа, визуализации результатов анализа и производства корпоративной отчетности.
История появления хранилищ данных ведет свою историю от концепции баз данных в качестве метода представления и накопления информации в электронном виде. Эта концепция сформировалась к середине шестидесятых годов прошлого века.
Первая система управления базами данных была разработана в 1969 году.
В 1970 году была предложена реляционная модель данных и на ее основе начали активно реализовываться популярные и сегодня реляционные системы управления базами данных. В рамках реляционного подхода с унифицированных позиций были решены многие задачи операционной (транзакционной) обработки данных.
Интенсивное накопление электронных информационных массивов информации различных институтов и организаций начало набирать активные обороты с середины восьмидесятых годов прошлого века.
Приводятся примеры о том, что в начале девяностых годов двадцатого века только в области химических дисциплин было зарегистрировано более 7000 библиографических, фактографических и смешанных баз данных.
В это время появилось определенное понимание того, что сбор данных в электронном виде – не самоцель, накопленные информационные массивы должны приносить пользу и могут быть использованы для эффективного анализа данных и быть полезны.
Первым, кто осознал этот факт, были менеджеры в области бизнеса и масштабного производства товаров и услуг. Накопленная информация несет в себе «информационный снимок» хронологии ее ситуации на рынке. Анализ развития административно-хозяйственной активности компании дает возможность значительно увеличить эффективность управления деятельностью, адекватно и наилучшим образом организовать взаимоотношения с клиентами, производство и сбыт товаров и услуг, минимизировать расходы.
Сегодня задачи анализа накопленных данных возложены на компьютерные информационные системы.[9]
Технологии баз данных и автоматизированных информационных систем активно используются для осуществления функции сбора и хранения данных, учета материальных и информационных объектов, поиска информации. В то же время аналитические возможности таких систем ограничены, поэтому разработка специальных технологий и приложений для управления анализом накопленных актуальны.
Предпосылки разработки хранилищ данных представлены на рисунке 9.
Рисунок 9 – Причины появления систем складирования данных
Созданию как централизованных, так и распределенных хранилищ данных, способствовали различные факторы современного развития общества и технологий.
Среди них:
- структурные изменения бизнеса;
- изменение требований пользователей;
- стандартизация программных продуктов обслуживания бизнеса;
- активное развитие технологий.[12]
Обобщенно основные факторы, катализирующие процесс создания и развития концепции систем складирования данных и хранилищ данных, представлены на рисунке 10.
Рисунок 10 - Основные факторы активизации разработки концепции хранилищ данных
Главная позиция концепции складирования данных заключается в том, что к данным, хранимым с целью анализа, наиболее эффективный доступ может быть обеспечен исключительно при условии выделения их из операционной (транзакционной) системы и помещения их в независимую систему складирования данных.
Такой подход сложился исторически. Ограниченность ресурсов аппаратного обеспечения и требование сохранности информации требовали создания резервных архивов данных на внешних магнитных носителях вне такой системы.
Специалисты указывают определенные причины необходимости разделения данных систем складирования данных и систем операционной обработки данных:
- отличия целевых требований к системам складирования данных и OLTP-системам (Online Transaction Processing - транзакционная система — обработка транзакций в реальном времени);
- необходимость накапливать информацию в хранилищах данных из многочисленных информационных источников. Это означает, что в случае, если данные создаются в самой OLTP-системе, то для системы складирования данных в подавляющем большинстве случаев информация генерируется вне ее;
- информация, попадая в хранилище данных, остается в исключительном большинстве случаев неизменной;
- информация в хранилище данных сохраняется в течение длительного времени.[2]
Схема разделения данных для анализа и оперативной обработки представлена на рисунке 11.
Рисунок 11 - Схема разделения данных для анализа и оперативной обработки
В настоящее время существует большое разнообразие распределенных хранилищ данных, разработанных для различных отраслей производства и с разными целями.
2.3 Классификация хранилищ данных
В качестве классических архитектур систем складирования данных специалисты выделяют следующие:
- системы с глобальным хранилищами данных;
- системы с независимыми киосками данных;
- системы с интегрированными киосками данных;
- системы, разработанные на основе комбинации из вышеуказанных архитектур.
Глобальным хранилищем данных – Global data warehouse- называется хранилище данных, в котором хранятся и поддерживаются все данные предприятия или их подавляющая часть.[20]
Такое хранилище является наиболее полно интегрированным хранилищем данных с большой степенью активности доступа к консолидированной информации и использованием его всеми отделениями предприятия или его администрацией в пределах базовых направлений деятельности предприятия.
Глобальное хранение данных проектируется и конструируется на базе нужд аналитической информационной поддержки предприятия в целом. Оно можно рассматриваться в качестве как общего репозитория для информации, обеспечивающей принятие эффективных решений для ведения бизнеса.
В физическом плане глобальное хранилище данных не обязательно должно быть реализовано в виде централизованного хранилища. Понятие «глобальное» применяется для демонстрации масштаба применения и организации доступа к данным в рамках всего предприятия.
Два основных архитектурных решения для глобальных хранилищ данных представлены на рисунке 12.
Рисунок 12 – Архитектурные решения для распределенного хранилища данных
2.4 Типовые технологические решения организации хранилищ данных
На практике используется несколько способов реализации хранилищ данных в рамках концепции и типовой архитектуры. [17]
Виртуальное хранилище данных.
Доступ к информации в режиме реального времени обеспечивается архитектурой посредством прикладного программного обеспечения промежуточного слоя. Базой данного решения выступает репозиторий метаданных. Репозиторий метаданных определяет источники информации, процедуры их начальной обработки, а также форматы представления информации итоговому клиенту.
В качестве недостатков такого решения отмечают интенсивный сетевой трафик с вытекающими снижением производительности несущей системы и угрозами нарушения целостности данных в результате ошибочных действий пользователей хранилищ данных.
Киоски данных.
Архитектурное решение в виде киосков данных является облегченной вариацией хранилища данных тематической направленности. Различают киоски данных, связанные с интегрированным хранилищами данных или несвязанные (автономные).
Глобальное хранилище данных.
Архитектура определяет единственный источник интегрированной информации предприятия.
Хранилища данных с многоуровневой архитектурой (наиболее распространена трехзвенная), (корпоративные хранилища данных).
Данная архитектура представлена на рисунке 13.
Рисунок 13 – Многоуровневая архитектура хранилищ данных
В архитектуре технологически реализованы три уровня:
- первый уровень реализует корпоративное хранилище данных предприятия;
- второй уровень поддерживает связанные киоски данных тематической направленности на базе многомерной системы управления базами данных;
- третий уровень – это реализация клиентских приложений пользователей с размещенными на них средствами информационного анализа.
Встроенные (комбинированные) хранилища данных.
Архитектура комбинированных хранилищ данных позиционирует собой хранилища данных, которые органически встраиваются в виртуальное предприятие или применяются в роли элемента аналитической поддержки в информационном воплощении бизнес-функций.