Файл: Диалектическое единство данных и методов в информационном процессе (Основные понятия информации).pdf
Добавлен: 29.03.2023
Просмотров: 93
Скачиваний: 2
1.3 Основные понятия данных
Прежде чем приступить к рассмотрению информационных технологий. Извлекающих информацию из массивов данных, рассмотрим само понятие данных.
Итак, данные (data) – сведения, полученные путем измерения, наблюдения, логических или арифметических операций и представленные в форме, пригодной для постоянного хранения, передачи и, в частности, автоматизированной, обработки.
В процессе сбора, обработки и использования данные разбиваются на отдельные элементарные составляющие – элементы данных, или элементарные данные. Элементарные данные могут быть выражены целыми и вещественными числами, словами, а также булевыми величинами, способными принимать два значения – "истина" (1) или "ложь" (0).
Данные подразделяются на два важных класса: условно постоянные и переменные данные. В экономическом смысле, первые – это всякого рода спецификации, нормативы выпуска, тарифные сетки, сведения о производительности рабочих центров и т.д. Обычно в автоматизированных системах управления они либо хранятся в массивах картотек, либо вводятся в информационную систему один раз и при необходимости включаются в расчет самой информационной системой. Условно постоянными они называются потому, что время от времени обновляются. Переменные данные – это, в экономическом смысле, например, сведения о выработке рабочих, о передаче материалов и оснастке в производство, выпуске продукции, о материальных запасах на складе и др. После выполнения расчета, как правило, выгружаются из оперативной памяти компьютера. Условно постоянные и переменные данные хранятся в таблицах баз данных.
Рассмотрим также основные операции с данными:
сбор данных – это накопление информации с целью обеспечения достаточной полноты данных для принятия решений;
формализация данных - приведение данных, поступающих из разных источников, к одинаковой форме, чтобы сделать их сопоставимыми между собой, то есть повысить уровень их доступности;
фильтрация данных - отсеивание лишних данных, в которых нет необходимости для принятия решений; при этом должен уменьшаться уровень шума, а достоверность и адекватность должны возрастать;
сортировка данных - упорядочение данных по заданному признаку с целью удобства использования; сортировка повышает доступность информации;
архивация данных - организация хранения данных в удобной и легко доступной форме; служит для снижения экономических затрат по хранению данных и повышает общую надежность информационного процесса в целом;
- защита данных - комплекс мер, направленных на предотвращение утраты, несанкционированного воспроизведения и модификации данных;
- транспортировка данных - прием и передача (доставка и поставка) данных между удаленными участниками информационного процесса. При этом источник данных в информатике принято называть сервером, а потребителя - клиентом;
- преобразование данных - перевод данных из одной формы в другую или из одной структуры в другую. Часто связано с изменением типа носителя.
К основным понятиям, связанным с данными далее относится понятие базы данных.
База данных (data base) – совокупность хранимых в памяти компьютера данных, относящихся к определенному объему или кругу деятельности, специально организованных, обновляемых и логически связанных между собой. Такие данные представляют собой своеобразную информационную модель реального физического объекта.
Если база данных размещена и работает на одном компьютере, то она называется локальной. Распределенная база данных расположена на нескольких связанных между собой компьютерах.
Для управления базами данных используются специализированные системы.
Система управления базами данных (СУБД) – комплекс программных и лингвистических средств общего или специального назначения, реализующий поддержку создания базы данных, централизованного управления и организации доступа к ним различных пользователей в условиях принятой в данной системе технологии обработки данных. СУБД характеризуется используемой моделью, средствами администрирования и разработки прикладных процессов и обеспечивает следующие функции: описание структуры и сжатие данных; преобразование и операции с данными; физическое хранение и сортировка записей; защита данных от сбоев, поддержка целостности данных и их восстановление в случае необходимости; работу с транзакциями и файлами; безопасность данных.
Система управления базами данных представляет собой оболочку, с помощью которой при организации структуры таблиц и заполнения их данными получается та или иная база данных.
Система управления реляционными базами данных (Relational Database Management System) - это СУБД, основанная на реляционной модели данных.
В реляционной модели данных любое представление данных сводится к совокупности реляционных таблиц -двумерных таблиц особого типа. Системы управления реляционными базами данных используются для построения хранилищ данных.
Система управления базами данных имеет программные, технические и организационные составляющие.
Программные средства систем управления базами данных включают в себя систему управления, обеспечивающую ввод-вывод, обработку и хранение данных; создание, модификацию и тестирование самой базы данных. Внутренними языками программирования СУБД являются языки четвертого поколения (C, C++, Pascal, Object Pascal). С помощью языков программирования баз данных создаются приложения, базы данных и интерфейс пользователя, включающий в себя экранные формы, меню, отчеты.
Специалисту-аналитику при необходимости работы с конкретной системой управления базами данных, в частности, при экспорте данных в среду инструмента Data Mining, следует изучить особенности конкретной СУБД. Так, например, в базе данных СУБД FoxPro следует учитывать, что все таблицы и представления базы данных физически хранятся в отдельных файлах, которые объединяются в одном проекте. Особенностью СУБД Access является то, что все таблицы базы данных, наоборот, хранятся в едином файле.
Для работы с конкретной базой данных, в том числе с целью ее анализа, специалисту-аналитику желательно знать описание всех таблиц базы данных и их структур (атрибутов, типов данных), количество записей в каждой таблице, а также связи между таблицами. Для решения этой задачи используется словарь данных.
К базам данных, а также к системам управления базами данных предъявляются следующие стандартные требования:
- высокое быстродействие;
- простота обновления данных;
- независимость данных;
- возможность многопользовательского использования данных;
- безопасность данных;
- стандартизация построения и эксплуатации БД (фактически СУБД);
- адекватность отображения данных соответствующей предметной области;
- дружелюбный интерфейс пользователя.
Высокое быстродействие предусматривает малое время отклика, то есть небольшой промежуток времени от момента запроса до момента реального получения данных из базы данных.
Независимость данных - это возможность изменения логической и физической структуры базы данных без изменения представлений пользователей.
Независимость данных обеспечивает минимальные изменения структуры базы данных при изменениях стратегии доступа к данным и структуры самих исходных данных. Эти изменения должны быть предусмотрены на этапах концептуального и логического проектирования базы данных с обеспечением минимальных изменений на этапе физического ее проектирования.
Безопасность данных - это защита данных от преднамеренного или непреднамеренного нарушения секретности, искажения или разрушения данных. Безопасность обеспечивает целостность данных и защиту данных от несанкционированного доступа.
Целостность данных - устойчивость хранимых данных к разрушению и уничтожению, связанным с неисправностями технических средств, системными ошибками и/или ошибочными действиями пользователей.
Целостность данных - точность и валидность данных. Целостность данных предполагает: отсутствие неточно введенных данных, защиту от ошибок при обновлении баз данных; невозможность удаления (или каскадное удаление) связанных данных разных таблиц; сохранность данных при сбоях техники; возможность восстановления данных и др.
Защита данных от несанкционированного доступа предполагает разграничение доступа к определенным данным базы и достигается введением мер безопасности: разграничение прав доступа к данным различных пользователей в зависимости от выполняемых ими функций и/или должностных обязанностей; введением защиты в виде паролей; использованием представлений, то есть, таблиц, которые являются производными от исходных и предназначены для работы конкретных пользователей для решения конкретных задач.
Стандартизация обеспечивает преемственность поколений конкретной СУБД, упрощает взаимодействие баз данных одного поколения систем управления базами данных с одинаковыми и различными моделями данных.
СУБД отвечает за обработку запросов и получение ответа от базы данных. Способы хранения данных могут быть различными: модель данных может быть как реляционной, так и многомерной, сетевой или иерархической.
Для получения из минимального количества данных максимума информации используются различные способы записи и исследования массивов данных, методы агрегирования и др. Для того, чтобы быть воспринятыми и стать информацией, данные проходят как бы тройной фильтр: физический (ограничения по пропускной способности канала), семантический и прагматический, где оценивается полезность данных.
2. Изменение технологий вследствие изменения объема и характера данных
С каждым годом в мире изобретаются и применяются все более совершенные технологии по обработке, хранению и анализу данных. Данные технологии позволяют с учетом реалий современного мира автоматизировать, значительно ускорять и совершенствовать процессы извлечения информации из большого количества данных, в частности, проводить сложный маркетинговый анализ рынка или частный финансовый анализ состояния компании.
В связи со значительным увеличением объемов данных, доступных для обработки, а также появлением таких современных на текущий момент понятий как «blockchain», «big data», интернет вещей и так далее, перед организациями стоит непростая задача следования тенденциям изменившегося информационного пространства и интеграции современных технологий в свою деятельность для сохранения своей конкурентноспособности.
Какие же современные технологии в обработке данных и аналитике находятся в данный момент в тренде? На саммите Gartner Data & Analytics 18-19 февраля 2019 года в Сиднее в центре внимания оказались расширенная аналитика (Augmented Analytics) и искусственный интеллект.
Расширенная аналитика, непрерывный интеллект (continuous intelligence) и искусственный интеллект (artificial intelligence) являются одними из самых громких тенденций в области технологий обработки данных и аналитики, которые будут иметь значительный потенциал в последующие 3-5 лет, по мнению Gartner, Inc.
Искуственный интеллект – одна из передовых технологий современного мира. Чат-бот, который отвечает на вопросы клиентов и направляет их к требуемой информации, или специалист-консультант – это общий пример искусственного интеллекта, с которым уже знаком, вероятно, каждый. Но это только один из способов применения технологий искусственного интеллекта.
Искусственный интеллект может предсказать, когда ключевой датчик в станке или машине должен быть заменен, чтобы предотвратить аварийный останов производственной линии или, наоборот, когда должен быть использован этот аварийный останов, чтобы предотвратить значительное повреждение роботизированных систем [5].
Модели искусственного интеллекта чаще всего используются для улучшения или полного замещения человека в вопросах принятия решений. Однако в некоторых сценариях требуется обоснование, каким именно способом данные модели приняли конкретное решение. Для повышения доверия конечных пользователей и заинтересованных сторон, архитекторы приложений на основе искусственного интеллекта должны сделать данные модели более понятными, прозрачными и формализованными.