Файл: Информационные технологии для бизнесанализа в коммерческой организации.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 09.12.2023
Просмотров: 97
Скачиваний: 3
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
37 увеличивает скорость получения информации. Хотя наличие единого источника данных не является обязательным условием работы аналитической системы, практически всегда ее создание начинается с построения хранилища данных.
Deductor Warehouse поддерживает прозрачную работу с тремя СУБД:
Firebird, MS SQL и Oracle. Вне зависимости от используемой СУБД работа с хранилищем происходит совершенно одинаково с использованием единого унифицированного механизма доступа. Поддержка нескольких СУБД в качестве платформы хранилищ, данных позволяет в каждом конкретном случае применять наиболее пригодную для данного случая базу данных. В нашем случае используется бесплатное (FireBird) программное обеспечение.
Кроме того, в Deductor реализована поддержка концепции виртуальных хранилищ, данных - Virtual Warehouse. Виртуальное хранилище данных обеспечивает прозрачный для аналитика доступ к сведениям, хранящимся в любых реляционных СУБД. Взаимодействие с Virtual Warehouse происходит аналогично работе с традиционным хранилищем данных. Аналитик оперирует бизнес-понятиями, заданными в семантическом слое, и от него скрыты все сложности выборки данных, как и в случае с Deductor Warehouse.
Пользователь задает при помощи простого Мастера, какая информация его интересует, а система автоматически трансформирует их в запросы к базе данных. Таким образом, эмулируется работа хранилища данных, а данные реально не перегружаются в специализированную систему, все операции производятся «на лету». Virtual Warehouse позволяет представить информацию, хранящуюся в реляционных базах данных, в удобном для аналитика многомерном виде. Deductor Studio - это рабочее место аналитика.
В этом приложении осуществляется формализация знаний эксперта.
Программа включает все необходимые для анализа инструменты обработки: механизмы импорта данных из разнородных источников, методы очистки и
38 предобработки, алгоритмы построения моделей и механизмы экспорта данных.
Все действия по анализу данных сводятся всего к 4 операциям:
1. Импорт данных.
В процессе импорта данные получаются из источника и загружаются специальным образом в программу. В дальнейшем с ними можно производить любые доступные операции, работа со всякой импортированной таблицей происходит одинаково. Поддерживается импорт из наиболее распространенных СУБД (Oracle, MS SQL, MySQL, Interbase…), стандартных файлов обмена данными (dbf, txt, csv…), офисных приложений
(MS Excel, MS Access…), бизнес-программ (1C v7, v8…). Кроме того, в программу встроен механизм импорта с применением стандартов доступа к данным ODBC и ADO.
2. Обработка данных.
Обработкой называется любое действие над данными, приводящее к их преобразованию, например, очистка данных либо построение моделей. Ее результатом является набор данных, который можно опять обработать каким- либо способом. Благодаря этому обеспечивается возможность построения сценариев обработки, то есть последовательных операций над данными, приводящих к нужному результату. Поддерживается широкий набор механизмов обработки: методы очистки
(заполнение пропусков, редактирование аномалий, фильтрация…), инструменты предобработки
(квантование, группировки, сортировки…), методы построения моделей
(нейронные сети, самоорганизующиеся карты, деревья решений…).
3. Визуализация.
Полученные результаты можно просмотреть различными способами, начиная от простых таблиц и диаграмм до многомерных кубов и специализированных визуализаторов. Система построена таким образом, что
39 самостоятельно определяет возможные способы визуализации и предлагает наиболее удобные способы отображения данных для каждого случая.
4. Экспорт данных.
Результаты обработки могут быть выгружены во множество приемников данных. Таким образом, обработанная и проанализированная информация выходит за пределы аналитической платформы, попадает в бизнес-приложения, офисные программы и прочее. В Studio реализованы самые современные самообучающиеся алгоритмы анализа. Анализ данных в
Deductor Studio базируется на построении сценариев обработки.
Алгоритм типового сценария представляется следующим образом:
1. аналитик загружает анализируемые данные в Excel или, в нашем случае, в текстовый редактор;
2. производит операцию импорта;
3. проверяет данные на наличие ошибок и исправляет их, например, продажи с нулевой суммой или возврат товара поставщику, этот процесс называется операцией очистки;
4. группируются данные для получения итоговой информации по месячным продажам определенного товара - это операции трансформации;
5. аналитик подбирает модель полинома или другую формулу, которые объясняли, исторические продажи - это этап построения модели;
6. применяется построенная модель для получения прогноза на следующий период, реализуется процесс прогнозирования;
7. последний этап анализа - отправка результатов прогноза заинтересованному лицу. Этот процесс реализуется экспортом полученных результатов. Работая с Deductor, аналитик строит сценарий по описанному алгоритму.
Deductor Studio не имеет механизмов ввода и ручной правки данных. В случае, если аналитик, получив данные, обнаружит в них, например, ошибки, он должен будет описать правило работы с такими данными. Например, он
40 должен будет отфильтровать данные о продажах с нулевой суммой. Это является обязательной операцией, так как вручную в Deductor Studio удалить непригодные записи невозможно. То, что он сформулирует, автоматически станет частью сценария. Такая работа требует чуть больше усилий и времени, чем простое удаление данных из таблицы, но подобный сценарий обработки тиражируем. При появлении новых данных не нужно опять искать некорректные записи, а воспользоваться правилом их обработки в сценарии, и очистка данных может быть выполнена автоматически. Эта особенность позволяет говорить о Deductor как об инструменте тиражирования знаний.
В Deductor сценарии отображаются в виде дерева с иконками и пояснительным текстом. Взглянув на это дерево, можно без труда проследить логику сценария и понять особенности его реализации. Это помогает не только модифицировать сценарии, но и передавать их другому аналитику, который также просто сможет «прочесть» ход мысли аналитика, создавшего сценарий.
Рис.14. Дерево сценариев Deductor Studio
Анализ не ограничивается только обработкой данных, визуализация данных позволяет значительно повысить результативность анализа. В системе имеется множество удобных способов отображения данных.
Программа самостоятельно анализирует способы обработки, особенности
41 набора данных, на которых производился анализ и автоматически предлагает возможные способы визуализации. Среди множества механизмов визуализации, встроенных в Deductor Studio, имеется и мощный Online
Analytical Processing (OLAP) модуль. OLAP - один из наиболее популярных способов отображения табличных данных. Данные в этом случае могут отображаться в виде кросс-таблиц или кросс-диаграмм. Кросс-таблицы удобны тем, что большая часть операций манипулирования данных выполняется «на лету». Одним щелчком мыши, можно данные сгруппировать произвольным образом, отфильтровать, отсортировать, переставить столбцы/строки и произвести множество других операций.
Deductor Studio позволяет при помощи этого механизма визуализации просмотреть любые данные, т. е. не только саму исходную информацию, но и результаты любой обработки.
Deductor Studio - это инструмент аналитика, а он является ключевым лицом в процессе анализа данных, именно его знания формализуются и тиражируются, но многие пользователи не являются аналитиками, для них нужен более простой и понятный способ получения требуемой информации.
В Deductor Studio имеется панель отчетов, напоминающая проводник в известных операционных системах. На этой панели аналитик формирует иерархическую структуру папок и в определенные папки выносит ссылки на интересующие пользователей узлы сценария.
Deductor Viewer - это рабочее место конечного пользователя. В нем отсутствуют механизмы построения сценариев, настройки источников, данных и прочие сложности. Работа с программой упрощена до предела: пользователь видит настроенную аналитиком панель отчетов, выбирает интересующий отчет, программа автоматически выполняет все необходимые действия, и конечный пользователь получает результат. Эта составляющая является частью более расширенных видов аналитической платформы и в нашем случае не применяется, впрочем, как и Deductor Server/Client.
42
Deductor Server функционирует в виде Windows-службы, к которой можно обращаться удаленно при помощи специального клиента - Deductor
Client. Управлять выполнением сценарием можно как из локальной сети, так и через Интернет. Использование Deductor Server значительно упрощает создание полноценной корпоративной аналитической системы, его применение позволяет воспользоваться всеми преимуществами трехзвенной архитектуры, оптимально используя возможности серверной аналитической обработки.
43
2.2.
Бизнес-анализ деятельности торговой компании в аналитической
платформе Deductor
Проектирование хранилища данных
Хранилище данных Deductor Warehouse – это специально организованная база данных, ориентированная на решение задач анализа данных и поддержки принятия решений, способная обеспечить максимально быстрый и удобный доступ к информации.
Все данные в Deductor Warehouse хранятся в структурах типа
«снежинка», где в центре расположены таблицы фактов, а «лучами» являются измерения, причем каждое измерение может ссылаться на другое измерение.
На этапе проектирования структуры хранилища, потребуются данные, которые представлены в четырех таблицах (табл. 2-5).
Таблица 2. Группы товаров
Товарная группа.Код
Товарная группа
11
Автозапчасти
12
Автохимия
13
Автокосметика
14
Масла
15
Шины/Диски
16
Аккумуляторы
17
Автосвет
18
Автоаксессуары
19
Автоэлектроника
20
Инструмент
21
Сувениры
Таблица 3. Отделы
Отдел.Код
Отдел.Наименование
1
Колесо 1 2
Колесо 2 3
Колесо 3
44
Таблица 4. Товары (фрагмент)
Товар.Код
Товар.Наименование
Товарная группа
11001
Турбокомпрессор Hyundai Porter (НОВЫЙ)
T0903 11 11002
Глушитель, задняя часть, BOSAL, 190875 11 11003
Глушитель, средняя часть, BOSAL, 177247 11 11004
Глушитель, задняя часть, BOSAL, 233563 11 11005
Глушитель, задняя часть, BOSAL, 154799 11 11006
Ремкомплект ГРМ, OPTIMAL, SK1031 11 11007
Ремкомплект ГРМ, DAYCO, KTB304 11 11008
Ремкомплект ГРМ, BOSCH, 1987949190 11 11009
Ремкомплект ГРМ, CONTITECH, CT605K1 11 11010
Свеча зажигания, DENSO, T14PRU15 11
Таблица 5. Продажи (фрагмент)
Дата продажи Товар.Код
Отдел.Код
Час покупки Количество
Сумма
01.06.2017 130207 1
10 1
175.50 01.06.2017 130209 1
12 2
251.60 01.06.2017 130208 1
12 1
171.00 01.06.2017 130504 1
15 1
99.80 01.06.2017 319236 1
17 2
540.30 01.06.2017 319237 1
17 3
790.50 01.06.2017 125111 1
18 2
362.90
Создание хранилища
Запускаем Deductor Studio Academic. Для создания нового хранилища данных – в меню Вид выбираем вкладку «Подключения», нажав правой кнопкой мыши, запускаем «Мастер подключений (Рис.15).
Рис. 15. Создание хранилища данных
45
Выбираем тип источника – Deductor Warehouse (Рис. 16).
Рис. 16. Окно выбора типа источника подключения Deductor Warehouse
Следующим шагом – выбираем доступный тип базы данных – Firebird
(В платных версиях платформы Deductor Studio есть возможность выбрать
MS SQL или Oracle). Задаем параметры базы данных (далее БД), в которой будет создана физическая и логическая структура хранилища данных (Рис.
17). Для этого пропишем путь, где будет располагаться БД, устанавливаем логин/пароль, определяем нужную кодировку, поставим флажок – Сохранять пароль.
Рис. 17. Установка параметров базы данных automag.gdb
Затем выбираем необходимую версию Хранилища Данных для корректной работы с метаданными – Deductor Warehouse 6. Создаем файл БД с необходимой структурой метаданных, с помощью кнопки
, в результате по указанному в предыдущем шаге пути будет создан файл automag.gdb. Имя хранилища вводится латинскими буквами, метку (название ХД видимое пользователю) установим «Автомагазин», в окне «Описание» - дадим описание ХД. Хранилище данных успешно завершено (Рис. 18).
46
Рис. 18. Хранилище данных «Автомагазин»
Для отражения созданной структуры хранилища данных в хранилище, вызываем редактор метаданных
, расположенный на вкладке
«Подключения».
Рис. 19. Редактор метаданных [Автомагазин]
Внесем первое измерение «Код группы», для этого нажмем кнопку «Разрешить редактировать» (Рис. 19), выберем узел «Измерения» и добавим измерение Код группы (Рис. 20).
С помощью кнопки «Добавить» создаем измерения с необходимыми параметрами, приведенными в табл. 6. Таким образом, структура метаданных хранилища будет состоять из пяти измерений.
Таблица 6. Параметры измерений
Измерение
Имя
Метка
Тип данных
Код группы
GR_ID
Группа.Код
Целый
Код товара
TV_ID
Товар.Код
Целый
Код отдела
PART_ID
Отдел.Код
Целый
Дата
S_DATE
Дата
Дата/время
Час покупки
S_HOUR
Час
Целый
47
Рис. 20.Создание первого измерения «Код группы»
Каждое из измерений может ссылаться на другое измерение, тем самым реализуя иерархию измерений. Создадим ссылку измерения
Товар.Код на измерение Группа.Код (Рис. 21).
Рис. 21. Формирование ссылки на измерение «Группа.Код»
После создания всех необходимых измерений и ссылок на измерения, сформируем процесс «Продажи». Добавляем в этот процесс измерения: Дата,
Отдел.Код, Товар.Код, Час и два факта: Количество и Сумма(Рис.22).
48
Рис. 22.Формирование процесса «Продажи»
Рис. 23. Структура хранилища данных «Автомагазин»
Получили необходимую структуру хранилища данных «Автомагазин»
(Рис.23).
В результате всех вышеописанных действий получаем пустое ХД с настроенным семантическим слоем. Теперь необходимо загрузить в хранилище данные из внешних источников. Для этого создаем сценарий.
Важно знать, что при создании сценария сначала загружаются все измерения, имеющие атрибуты и только потом загружаются данные в процессы, измерения загружаются с верхнего уровня к нижнему.
49
Первым шагом сценария – будет Импорт данных. Так как в бесплатной версии Deductor Studio Academic возможно импортировать исключительно текстовые файлы, были подготовлены четыре файла с расширением txt:
Группы товаров1.txt, Товары1.txt, Отделы1.txt, Продажи1.txt.
Для импорта файла во вкладке «Сценарии», нажимаем кнопку вызова
«Мастер импорта»
- выберем источник – нужный текстовый файл и настроив параметры импорта, импортируем все четыре текстовых файла
(Рис. 24).
Рис. 24. Результат импорта текстового файла «Группы товаров1.txt»
Вторым шагом загрузим данные в измерения, с помощью «Мастера экспорта»
. Из списка выбираем загрузка данных в Deductor Warehouse, затем выбираем необходимое подключение к хранилищу данных –
«Автомагазин». Далее указываем измерение, в которое будет загружаться информация – Группа.Код (Рис. 25).
Рис. 25. Выбор объекта для экспорта
50
Устанавливаем соответствие элементов объекта в хранилище данных с полями входного источника данных (то есть таблицы Группы товаров1.txt
(Рис. 26)).
Рис. 26. Настройка соответствия полей
Запускаем процесс загрузки данных в ХД, нажав кнопку «Пуск.
Повторим все действия для остальных измерений - Отдел.Код, Товар.Код, в результате получим сценарий, приведенный на рис. 27.
Рис. 27. Сценарий загрузки данных в ХД «Автомагазин»
Далее необходимо загрузить данные в процесс «Продажи» (Рис. 28).