Файл: Информационные технологии поддержки принятия решений на основе хранилищ данных.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.01.2024
Просмотров: 48
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Шубенин А.А., Прокина Н.В., Мухин В.Н., Поздняков С.Ю.
80 «Information and mathematical technologies in science and management» 2016 № 3 80
УДК 519.816
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ
НА ОСНОВЕ ХРАНИЛИЩ ДАННЫХ
Шубенин Алексей Алексеевич
К.т.н., начальник научно-исследовательской лаборатории
Федеральное государственное бюджетное учреждение «3 Центральный научно- исследовательский институт» Министерства обороны Российской Федерации
107564, г. Москва, Погонный проезд, дом 10, e-mail: ashubenin@yandex.ru
Прокина Наталья Владимировна
К.т.н., с.н.с., Федеральное государственное бюджетное учреждение «3 Центральный научно- исследовательский институт» Министерства обороны Российской Федерации
107564, г. Москва, Погонный проезд, дом 10, e-mail: nataly_pr@mail.ru
Мухин Владимир Николаевич
заместитель начальника НТЦ-1
Акционерное Общество «Научно-производственное предприятие «Рубин»
440000, г. Пенза, ул. Байдукова, 2, e-mail: bob12121@mail.ru
Поздняков Сергей Юрьевич
начальник отделения
Акционерное Общество «Научно-производственное предприятие «Рубин»
440000, г. Пенза, ул. Байдукова, 2, e-mail: pozdnyakov-sergey@yandex.ru
Аннотация. Основной особенностью информационной поддержки принятия решений является качественно новая организация взаимодействия человека и компьютера. Выработка решения является основной целью этой технологии.
Принятие решений происходит в результате итерационного процесса, в котором участвуют система поддержки принятия решений (СППР) и человек как управляющее звено, задающее входные данные и оценивающее полученный результат. Окончание итерационного процесса происходит по воле человека. Информационная технология поддержки принятия решений может использоваться на любом уровне управления. Решения, принимаемые на различных уровнях управления, как правило, должны координироваться.
Поэтому важной функцией СППР является координация действий лиц, принимающих решения на разных уровнях управления. В статье выполнен обзор архитектур СППР и оперативной аналитической обработки данных.
Содержание статьи посвящено описанию наиболее популярных типов архитектур СППР, их преимуществ и недостатков, а также технологий обработки данных в реальном масштабе времени.
Ключевые слова: принятие решений, хранение данных, информационные технологии, анализ данных, системный анализ.
Введение. Системы поддержки принятия решений появились в 1970-1980 гг., чему способствовали широкое распространение персональных компьютеров, пакетов прикладных программ, а также успехи в создании систем искусственного интеллекта. Основной
Информационные технологии поддержки принятия решений на основе хранилищ данных
«Информационные и математические технологии в науке и управлении» 2016 № 3 81 81
особенностью информационной поддержки принятия решений является качественно новая организации взаимодействия человека и компьютера. Выработка решения является основной целью этой технологии. Принятие решений происходит в результате итерационного процесса, в котором участвуют СППР и человек как управляющее звено, задающее входные данные и оценивающее полученный результат. Окончание итерационного процесса происходит по воле человека.
Отличительные характеристики информационных технологий поддержки принятия решений следующие:
ориентация на решение плохо структурированных задач;
сочетание традиционных методов доступа и обработки данных с возможностями математических моделей и методами решения задач;
направленность на непрофессионального пользователя компьютера;
высокая адаптивность методов к характеристикам имеющегося технического и программного обеспечения.
Информационная технология поддержки принятия решений может использоваться на любом уровне управления. Решения, принимаемые на различных уровнях управления, как правило, должны координироваться. Поэтому важной функцией СППР является координация действий лиц, принимающих решения на разных уровнях управления.
1.
Архитектура систем поддержки принятия решений. На сегодняшний день можно выделить четыре типа наиболее популярных архитектур СППР, основанных на технологии хранилищ данных: функциональная архитектура, независимые витрины данных, двухуровневое хранилище данных, трехуровневое хранилище данных [5]. Структура СППР с функциональной архитектурой приведена на рис. 1, она является наиболее простой с архитектурной точки зрения. Такие системы часто встречаются на практике, особенно в организациях с невысоким уровнем аналитической культуры и недостаточно развитой информационной инфраструктурой.
Рис. 1. СППР с функциональной архитектурой
Характерной чертой СППР с функциональной архитектурой является осуществление анализа с использованием данных из оперативных систем (источников данных), которые имеют общую черту: они предназначены для реализации отдельных операций (транзакций).
Для обозначения таких систем используется термин OLTP (On-Line Transaction Processing - обработка транзакций в режиме реального времени). Транзакционные системы представляют собой источники данных, используемые для последующей аналитической обработки.
Данные из транзакционных источников требуется собрать, структурировать и представить в
Шубенин А.А., Прокина Н.В., Мухин В.Н., Поздняков С.Ю.
82 «Information and mathematical technologies in science and management» 2016 № 3 82
виде, удобном для задач принятия решений. Поэтому для многих аналитических задач (в том числе задач принятия решений) рекомендуется использовать системы с элементами более высоких уровней аналитической пирамиды.
Преимущества СППР с функциональной архитектурой:
быстрое внедрение за счет отсутствия этапа перегрузки данных в специализированную систему;
минимальные затраты за счет использования одной платформы.
Недостатки СППР с функциональной архитектурой:
единственный источник данных, потенциально сужающий круг запросов, на которые может ответить система;
низкое качество данных с точки зрения их роли в поддержке принятия стратегических решений, что обусловлено отсутствием этапа очистки данных;
невысокое качество выходных данных СППР с функциональной архитектурой;
большая нагрузка на оперативные системы, которая может привести к остановке работы СППР, что весьма нежелательно.
Структура СППР с независимыми витринами данных приведена на рис. 2. Данные
СППР часто появляются в организации исторически и встречаются в крупных организациях с большим количеством независимых подразделений, зачастую имеющих свои собственные отделы информационных технологий. СППР этого типа в большей степени являются предметно-ориентированными. Как правило, витрина содержит информацию, относящуюся к какому-либо определенному направлению деятельности организации. Поэтому информация в витринах данных хранится в специальном виде, наиболее подходящем для решения конкретных задач обработки запросов и аналитических задач.
Рис. 2. СППР с независимыми витринами
Есть два подхода к применению витрин данных. Первый подход предполагает, что витрина данных представляет собой локальное хранилище данных, оптимизированное для запросов к данным конкретной предметной области при рассмотрении проблематики принятия решений. При втором подходе витрина рассматривается как OLAP-система (On-
Line Analytical Processing), оптимизированная для запросов пользователей к данным
Информационные технологии поддержки принятия решений на основе хранилищ данных
«Информационные и математические технологии в науке и управлении» 2016 № 3 83 83
конкретной предметной области [1]. Витрины данных могут быть реляционными и многомерными. В любом случае витрины данных обладают таким общим свойством, как предметная ориентированность.
Преимущества СППР с витринами данных следующие:
новые витрины данных можно внедрять в процессе эксплуатации существующих и достаточно быстро;
витрины проектируются для решения задач принятия решений в интересах отдельных подразделений предприятия;
данные, хранимые в витрине, оптимизированы для использования определенными группами пользователей, что облегчает процедуры их наполнения, а также способствует повышению производительности.
Недостатки СППР с витринами данных:
данные дублируются, т.е. хранятся многократно в различных витринах данных, что приводит к увеличению расходов на хранение и возникновению потенциальных проблем, связанных с необходимостью поддержания непротиворечивости данных;
сложность процесса наполнения витрин данных при большом количестве источников данных;
данные не консолидируются на уровне предприятия, таким образом, отсутствует единое представление бизнес-процессов.
Архитектура СППР с двухуровневым хранением данных приведена на рис. 3.
Структура СППР отличается централизацией предоставления информации в рамках одной компании. Для поддержки такой архитектуры необходима выделенная команда профессионалов в области создания и эксплуатации хранилищ данных (ХД). Таким образом, в организации должны быть согласованы все определения и процессы преобразования данных.
Рис. 3. СППР с двухуровневым хранением данных
ХД определяется как совокупность предметно-ориентированных, интегрированных, стабильных, поддерживающих хронологию наборов данных. ХД в СППР призвано выступать в роли «единого и единственного источника данных достоверной информации».
Ценность хранилищ данных заключается в том, что они представляют собой крупные
Шубенин А.А., Прокина Н.В., Мухин В.Н., Поздняков С.Ю.
84 «Information and mathematical technologies in science and management» 2016 № 3 84
источники данных масштаба предприятия (организации) для дальнейшей аналитической обработки. Обычно ХД обладают структурой, учитывающей отраслевую специфику деятельности организации. При этом, как правило, доступность ХД для обработки в реальном времени ограничена, особенно при больших объемах хранимых данных.
Преимущества СППР с двухуровневым хранением данных:
данные хранятся в единственном экземпляре;
минимальные затраты на хранение данных;
отсутствие проблемы синхронизации нескольких копий данных;
данные консолидируются на уровне предприятия, что позволяет иметь единое представление бизнес-процессов.
Недостатки СППР с двухуровневым хранением данных:
данные не структурируются для поддержки потребностей отдельных пользователей или групп пользователей;
возможны проблемы с производительностью системы;
возможны трудности с разграничением прав пользователей на доступ к данным системы.
Структура СППР на основе трехуровневого хранения данных приведена на рис. 4.
Рис. 4. СППР с трехуровневым хранением данных
Хранилище данных представляет собой единый централизованный источник корпоративной информации. Витрины данных представляют подмножества данных из хранилища, организованные для решения задач отдельных подразделений компании.
Конечные пользователи имеют возможность доступа к детальным данным хранилища в случае, если данных в витрине недостаточно, а также для получения более полной картины состояния бизнеса.
Преимущества СППР с трехуровневым хранением данных:
создание и наполнение витрин данных упрощено, поскольку наполнение происходит из единого надежного источника очищенных нормализованных данных
(хранилища);
Информационные технологии поддержки принятия решений на основе хранилищ данных
«Информационные и математические технологии в науке и управлении» 2016 № 3 85 85
витрины данных синхронизированы и совместимы с корпоративным представлением о бизнес-процессах;
имеется корпоративная многомерная модель данных, на основе которой существует возможность расширения хранилища данных и добавления новых витрин данных при минимальных затратах;
гарантированная производительность системы при принятии решений.
Недостатки СППР с трехуровневым хранением данных:
избыточность хранимых данных, которая приводит к росту требований на хранение данных;
необходимость согласования с принятой архитектурой СППР многих областей деятельности с потенциально различными требованиями, что увеличивает время на внедрение моделей и алгоритмов принятия решений.
Выше рассмотрены основные варианты архитектур СППР. Выбор конкретного варианта зависит от условий, при которых поставлена задача внедрения. Эти условия определяются требованиями быстроты возврата от вложенных инвестиций, надежности соз- даваемой инфраструктуры и т.д. На выбор архитектуры СППР значительное влияние может оказать состав проектной группы, состоящей либо из одних профессионалов, либо преимущественно из новичков. Кроме того, на выбор архитектуры СППР может оказать влияние наличие формализованной методологии, технологии, инструментальных средств и методов проектирования [7, 8].
2. Оперативная
аналитическая обработка данных. Широкое применение информационных технологий в различных сферах деятельности привело к появлению систем
OLTP, предназначенных для оперативной обработки транзакций или выполнения транзакций в режиме реального времени. Системы OLTP ориентированы на быстрое обслуживание, связанное со сбором небольших объемов данных, поступающих с высокой интенсивностью.
Характер использования систем OLTP определил требования, предъявляемые к используемым базам данных:
высокая степень нормализации;
при возникновении ошибки транзакция должна целиком «откатиться» и вернуть систему к состоянию, которое было до начала транзакции;
обеспечение обработки данных в реальном времени.
Системы OLTP обладают функциональными возможностями, ограниченность которых при обработке больших объемов данных осознана в 90-х гг. XX в. Вместе с тем накопленные объемы данных о результатах деятельности предприятий имеют большую ценность. Использование имевшихся в распоряжении компаний систем OLTP в целях анализа данных и принятия решений не привело к ожидаемым результатам, поэтому возникла необходимость в аналитических системах, в том числе и СППР, оперирующих большими объемами исторических данных. В качестве решения данной проблемы возникла технология OLAP (On-Line Analytical Processing, оперативная аналитическая обработка данных).
Основоположником технологии OLAP является Э. Кодд. В 1993 г. он опубликовал статью под названием «OLAP для пользователей-аналитиков: какой он должен быть», в ней он сформулировал двенадцать основных правил, которые должны служить основой для
Шубенин А.А., Прокина Н.В., Мухин В.Н., Поздняков С.Ю.
86 «Information and mathematical technologies in science and management» 2016 № 3 86
выбора наиболее подходящих инструментов OLAP [6]. Впоследствии количество правил выросло до 18, и они были разбиты на четыре группы. Для того, чтобы упростить проверку на соответствие инструментов OLAP необходимым требованиям, на основе правил, разработанных Коддом, в 1995 году был разработан тест FASMI (Fast Analysis Shared
Multidimensional Information, Быстрый Анализ Разделяемой Многомерной Информации).
Приложение должно иметь возможность обращаться к любой нужной информации, независимо от ее объема и места хранения. Также OLAP-система должна поддерживать анализ, определяемый бизнес-процессами организации, и статистический анализ.
Отмечается, что необходима возможность использования основных операций OLAP, к которым, как правило, относят операции среза (Slice), вращения (Rotate), консолидации (Drill
Up) и детализации (Drill Down). Требования включают в себя также обеспечение одинаково высокой скорости выполнения всех запросов к системе. Рекомендованным временем для выполнения большинства аналитических запросов указано 5 с., при этом допустимым временем выполнения для наиболее сложных запросов считается 20 с. В системе должен быть обеспечен многопользовательский доступ к данным, при этом необходимо обеспечивать разграничение информации. Ключевым требованием данного теста является предоставление пользователям возможности работы с многомерной моделью, отвечающей представлениям пользователей о деятельности и структуре организации. При этом многомерное концептуальное представление данных может быть обеспечено без ор- ганизации многомерного хранилища [1, 3].
Автором концепции ХД считается Билл Инмон [9] . ХД он определил как «предметно- ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные с целью поддержки управления». Впоследствии Инмон внес большой вклад в развитие данной концепции. Метод проектирования ХД, описываемый
Инмоном, получил название «сверху вниз» и часто характеризуется как классический.
Другим автором, внесшим большой вклад в развитие технологии хранилищ данных, является
Ральф Кимбалл [10]. Подход, предлагаемый им, получил название «снизу вверх».
Девятишаговая методология, описанная Кимбаллом, является одним из наиболее часто используемых подходов к проектированию хранилищ данных.
Поскольку отдача инвестиций от использования ХД оказалась достаточно высокой, то данная технология получила различные реализации.
По способу реализации многомерной модели данных OLAP- системы делятся на три группы:
MOLAP (Multidimensional OLAP)
исходные и агрегатные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. Однако в этом случае многомерная база данных оказывается избыточной, так как многомерные данные полностью содержат исходные реляционные данные. Также минусом является необходимость специального инструмента для формирования кубов и их пересчета в случае изменения базовых значений [2].
ROLAP (Relational OLAP)
исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных. Требования к ре-