Файл: Операции, производимые с данными (Единицы представления и хранения данных).pdf
Добавлен: 01.04.2023
Просмотров: 73
Скачиваний: 2
СУБД может обеспечить как логическую, так и физическую независимость данных. Это означает, что он может защитить пользователей и приложения от необходимости знать, где хранятся данные или быть обеспокоенным изменениями в физической структуре данных (хранилище и оборудование). Пока программы используют интерфейс прикладного программирования (API) для базы данных, предоставляемой СУБД, разработчикам не придется изменять программы только потому, что были внесены изменения в базу данных [7, 13].
С реляционными СУБД (RDBMS) этот API — это SQL, стандартный язык программирования, используемый для определения, защиты и доступа к данным в РСУБД.
Популярные модели баз данных и их системы управления включают:
- Системы управления реляционными базами данных (RDMS), которые могут быть адаптированы под большинство случаев использования.
- СУБД NoSQL — хорошо подходит для слабо определенных структур данных, которые могут развиваться с течением времени.
- Система управления базами данных в памяти (IMDBMS) — обеспечивает более быстрое время отклика и лучшую производительность.
- Система управления базами данных Columnar (CDBMS) — хорошо подходит для хранилищ данных, которые имеют большое количество аналогичных элементов данных.
- Облачная система управления данными — поставщик облачных услуг отвечает за предоставление и обслуживание СУБД [1].
Использование СУБД для хранения и управления данными имеет свои преимущества, но также и накладные расходы. Одним из самых больших преимуществ использования СУБД является то, что она позволяет конечным пользователям и прикладным программистам получать доступ и использовать одни и те же данные при управлении целостностью данных. Данные лучше защищены и поддерживаются, когда их можно использовать с СУБД вместо создания новых итераций тех же данных, которые хранятся в новых файлах для каждого нового приложения. СУБД обеспечивает централизацию хранилищам данных, доступ к которым осуществляется несколькими пользователями контролируемым образом [8, 17].
Центральное хранение и управление данными в СУБД обеспечивает:
- абстракцию и независимость данных;
- безопасность данных;
- механизм блокировки для одновременного доступа;
- эффективный обработчик для сбалансирования потребностей нескольких приложений с использованием одних и тех же данных;
- возможность быстрого восстановления после сбоев и ошибок, включая перезапуск и возможность восстановления;
- надежные возможности целостности данных;
- регистрация и аудит деятельности;
- простой доступ с использованием стандартного интерфейса прикладного программирования (API);
- единообразные процедуры администрирования данных.
Другим преимуществом СУБД является то, что ее можно использовать для навязывания логической структурированной организации данных. СУБД обеспечивает экономию при обработке больших объемов данных, поскольку она оптимизирована для таких операций [19].
СУБД может также предоставлять множество представлений о единой схеме базы данных. Его вид определяет, какие данные пользователь видит и как этот пользователь видит данные. СУБД обеспечивает уровень абстракции между концептуальной схемой, которая определяет логическую структуру базы данных и физическую схему, которая описывает файлы, индексы и другие физические механизмы, используемые базой данных. Когда используется СУБД, системы могут быть изменены намного легче при изменении бизнес-требований. Новые категории данных могут быть добавлены в базу данных без нарушения существующей системы, и приложения могут быть изолированы от того, как данные структурируются и сохраняются [12, 17].
Разумеется, СУБД должна выполнять дополнительную работу для обеспечения этих преимуществ, тем самым принося с собой накладные расходы. СУБД будет использовать больше памяти и процессорной мощности, чем простая система хранения файлов. И, конечно, для разных типов СУБД потребуются разные типы и уровни системных ресурсов.
Таким образом, в рамках данной главы было раскрыто понятие «данные», рассмотрены вопросы хранения данных.
2. ОСОБЕННОСТИ РАБОТЫ С ДАННЫМИ
2.1 Специфические операции над данными
В ходе информационного процесса данные преобразуются из одного вида в другой с помощью различных методов. Обработка данных включает в себя множество операций. По мере развития научно-технического прогресса и общего усложнения связей в человеческом обществе возрастают неуклонно трудозатраты на обработку данных. Прежде всего, это связано с постоянным усложнением условий управления производством и обществом. Второй фактор, также вызывающий общее увеличение объемов, обрабатываемых данных, связан с научно-техническим прогрессом, а именно с быстрыми темпами появления и внедрения новых носителей данных, средств их хранения и доставки.
В структуре возможных операций с данными можно выделить следующие:
- сбор – накопление информации с целью обеспечения достаточной полноты для принятия решений;
- формализация – приведение данных, поступающих из разных источников, к одинаковой форме, чтобы сделать их сопоставимыми между собой, то есть повысить их уровень доступности;
- фильтрация – отсеивание «лишних» данных, в которых нет необходимости для принятия решений; при этом должен уменьшаться уровень «шума», а достоверность и адекватность данных должны возрастать;
- сортировка – упорядочение данных по заданному признаку с целью удобства использования; эта процедура повышает доступность информации;
- архивация – организация хранения данных в удобной и легкодоступной форме; служит для снижения экономических затрат по хранению данных и повышает общую надежность информационного процесса в целом;
- защита – комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных;
- транспортировка - прием и передача (доставка и поставка) данных между удаленными участниками информационного процесса; при этом источник данных в информатике принято называть сервером, а потребителя - клиентом;
- преобразование данных – перевод данных из одной формы в другую или из одной структуры в другую. Преобразование данных часто связано с изменением типа носителя, например, книги можно хранить в обычной бумажной форме, но можно использовать для этого и электронную форму, и микрофотопленку. Необходимость в многократном преобразовании данных возникает также при их транспортировке, особенно если она осуществляется средствами, не предназначенными для транспортировки данного вида данных. В качестве примера можно упомянуть, что для транспортировки цифровых потоков данных по каналам телефонных сетей (которые изначально были ориентированы только на передачу аналоговых сигналов в узком диапазоне частот) необходимо преобразование цифровых данных в некое подобие звуковых сигналов, чем и занимаются специальные устройства – телефонные модемы.
Приведенный здесь список типовых операций с данными далеко не полон. Миллионы людей во всем мире занимаются созданием, обработкой, преобразованием и транспортировкой данных, и на каждом рабочем месте выполняются свои специфические операции, необходимые для управления социальными, экономическими, промышленными, научными и культурными процессами. Полный список возможных операций составить невозможно. Сейчас важен другой вывод: работа с информацией может иметь огромную трудоемкость, и ее надо автоматизировать.
Процедура доступа к данным может быть инициирована как самим компьютером (для решения каких-либо своих технических задач), так и конечным пользователем. В последнем случае пользователь формирует запрос, куда включает, в частности, обозначение требуемого вида доступа или действия и указание на то, над какими данными это действие надо выполнить. Как отмечалось ранее, идентификация данных осуществляется с помощью ключей. В качестве же требуемого действия может производиться одно из следующих: добавление, удаление, изменение, просмотр элемента или обработка данных из элемента.
При добавлении элемента информационный массив пополняется новыми данными в виде записи файла или файла в целом, соответственно, для структурированных и неструктурированных данных. В запросе в этом случае, помимо указанной выше информации, приводится и сам новый элемент. При этом объем информационного массива увеличивается.
Удаление, наоборот, является обратным действием, вызывающим исключение упомянутых данных. Это действие приводит к уменьшению объема информационного массива.
Изменение относится не к элементу, а к его составляющим – полям записи файла или тексту, хранящемуся в файле, и означает, в свою очередь, удаление прежних значений полей или строк текста и/или добавление новых. В запрос включается дополнительная информация, указывающая на требуемые составляющие изменяемого элемента, а также сами новые значения этих составляющих. Объем информационного массива при этом не меняется для структурированных данных и, возможно, меняется для неструктурированных;
Просмотр связан с предоставлением данных пользователю на устройстве вывода компьютера, как правило, на дисплее. В запросе в этом случае дополнительно указывается, какие составляющие элемента требуется просмотреть (по умолчанию просматривается весь элемент).
Обработка предусматривает выполнение некоторых арифметических операций над данными элемента, например, накопление суммы и т.д., и относится только к структурированным данным, а потому далее не рассматривается.
Чтобы выполнить любое их указанных выше действий, нужный элемент должен быть предварительно найден в информационном массиве, для чего выполняется его поиск (для добавления нового элемента тоже делается попытка его поиска, которая заканчивается неудачно, и тогда элемент добавляется). Под поиском элемента понимается определение его местонахождения в информационном массиве. Таким образом, любой доступ включает поиск, что делает эту фазу доступа наиболее значимой [26].
Технологии доступа при выполнении действий изменения элемента показана на рисунке 1.
Рисунок 1 – Технологии доступа при выполнении действий изменения элемента
Технологии доступа при выполнении действий добавления элемента показаны на рисунке 2.
Рисунок 2 – Технологии доступа при выполнении действий добавления элемента
Технология удаления изображена на рисунке 3.
Рисунок 3 – Технология удаления элемента
Технология просмотра элемента приведена на рисунке 4. Различие в схемах состоит в том, что по технологии рисунках 1 и 2 выполняется воздействие на информационный массив с целью его изменения, для чего в него передаются данные, по технологии рисунке 3 воздействие не связано с передачей данных, а по схеме рисунка 4 данные выводятся из информационного массива без его изменения.
При выполнении рассмотренных действий над элементами информационного массива на практике важны два фактора, противоречащие друг другу: временной фактор, в соответствии с которым запрос пользователя должен обрабатываться в минимальные сроки, и фактор минимизации требуемого объема памяти для хранения данных.
Рисунок 4 – Технология просмотра элемента
Для уменьшения времени обработки запроса особые усилия прилагаются к применению таких структур хранения данных, которые позволяли бы оптимизировать поисковые операции, возможно, за счет дополнительных описаний данных. Это, очевидно, повышает расход памяти. Поэтому при проектировании моделей данных учитывается предполагаемый режим эксплуатации информационного массива: если это интерактивный режим, то основное внимание уделяется минимизации времени доступа к данным, если же режим пакетный, то минимизируют требуемую память. Кроме того, на выбор модели влияют особенности той предметной области, которая отражается в структурах хранения [26].
В силу вышесказанного, основное внимание в данном разделе уделено задачам организации хранения данных разных видов и поиска по ключам, входящим в запросы пользователей, поскольку поисковые операции и определяют, в основном, продолжительность различных действий над информационным массивом. Из приведенных типов действий в рассмотрение включены добавление и просмотр элементов данных, поскольку добавление связано с воздействием на информационный массив и изменением его объема (удаление является обратным действием по отношению к добавлению), а просмотр – это наиболее часто выполняемые действия на практике. При этом рассматриваются общие вопросы работы с текстовой и структурированной информацией, методы и модели, используемые при организации хранения, поиска и добавления данных.