Файл: Операции, производимые с данными (Актуальность темы работы заключается в том, что работа с информацией может иметь огромную трудоемкость, и ее надо автоматизировать).pdf
Добавлен: 31.03.2023
Просмотров: 79
Скачиваний: 3
Введение
В мире накоплено много информации, характеризующей различные научные, образовательные, социальные и др. сферы деятельности человечества. Всемирная паутина радикально изменила то, как мы обмениваемся знаниями, за счет снижения помех для публикации и доступа к данным в рамках глобального информационного пространства.
В ходе информационного процесса данные преобразуются из одного вида в другой с помощью различных методов. Обработка данных включает в себя множество операций. По мере развития научно-технического прогресса и общего усложнения связей в человеческом обществе возрастают неуклонно трудозатраты на обработку данных. Прежде всего, это связано с постоянным усложнением условий управления производством и обществом. Второй фактор, также вызывающий общее увеличение объемов обрабатываемых данных, связан с научно-техническим прогрессом, а именно с быстрыми темпами появления и внедрения новых носителей данных, средств их хранения и доставки.
Миллионы людей во всем мире занимаются созданием, обработкой, преобразованием и транспортировкой данных, и на каждом рабочем месте выполняются свои специфические операции, необходимые для управления социальными, экономическими, промышленными, научными и культурными процессами. Полный список возможных операций составить невозможно, да и не нужно.
Актуальность темы работы заключается в том, что работа с информацией может иметь огромную трудоемкость, и ее надо автоматизировать.
Как известно, в материальном мире все физические объекты, окружающие нас, есть или телами, или полями. Физические объекты, взаимодействуя друг с другом, порождают сигналы различных типов. В общем случае любой сигнал - это меняется во времени физический процесс. Такой процесс может иметь различные характеристики. Та из них, которая используется для представления данных, называется параметром сигнала. Если параметр сигнала принимает ряд последовательных, конечных во времени, значений, то сигнал называется дискретным. Если параметр сигнал - непрерывная во времени функция, то сигнал называется непрерывным.
Сигналы, в свою очередь, могут порождать в физических телах изменения свойств. Это явление называется регистрацией сигналов. Сигналы, зарегистрированные на материальном носителе, называются данными.
Данные относятся к способу представления, хранения и элементарным операциям обработки информации. Прежде всего, данные - это носитель информации. Образно говоря, данные - это текст в некоторой азбуке, а информация - это рассказ (сообщение), имеющий определенный семантический смысл [1, с.107].
Для определения понятия данных представим некоторую абстрактную ситуацию:
- есть некоторая система (событие, процесс), информация о которой представляет интерес;
- есть наблюдатель, способный воспринимать состояния системы и в определенной форме фиксировать их в своей памяти.
Тогда говорят, что в памяти наблюдателя находятся «данные», описывающих состояние системы. В общем случае таким наблюдателем является информационная система.
Данные — диалектическая составная часть информации. Они представляют собой зарегистрированные сигналы. При этом физический метод регистрации может быть любым: механическое перемещение физических тел, изменение их формы или параметров качества поверхности, изменение электрических, магнитных, оптических характеристик, химического состава и (или) характера химических связей, изменение состояния электронной системы и многое другое. В соответствии с методом регистрации данные могут храниться и транспортироваться на носителях различных видов.
Таким образом, «данные» можно определить как информацию, фиксированную в определенной форме, пригодной для дальнейшей обработки, хранения и передачи информационной системой.
формы представления данных, структуры данных
Работа с большими объемами информации автоматизируется гораздо проще, когда данные упорядочены, то есть образуют определенную структуру. Структура информации - это то, что отражает взаимосвязи между ее составляющими (элементами).
Если данные хранятся в организованной форме, то есть определенным образом упорядочены (структурированные), то каждый элемент данных приобретает новое свойство, которое можно назвать адресу, который определяет размещение, расположение, местонахождение этого элемента по отношению к другим.
Наиболее распространенными являются следующие три типа структур: линейные, иерархические, табличные.
Линейные структуры - это хорошо известные списки. Список - самая структура данных, в которой каждый элемент однозначно определяется своим номером. Например, журнал посещения студентами занятий имеет структуру списка, поскольку каждый студент группы зарегистрирован под своим уникальным номером. Итак, линейные структуры данных - это упорядоченные структуры, в которых адрес элемента однозначно определяется его номером.
Табличные структуры отличаются от линейных тем, что элементы данных определяются адресом ячейки, которая состоит не из одного параметра, а из нескольких. В частности, для прямоугольных таблиц адрес ячейки определяется номером строки и номером столбца. Упоминавшийся уже журнал посещения можно рассматривать и как табличную структуру. Обобщением двумерных (прямоугольных) таблиц является многомерные таблицы.
Иерархические структуры. Данные, которые трудно представить в виде списков и таблиц, часто подают в виде иерархических структур. В иерархической структуре адрес каждого элемента определяется путем доступа (маршрутом), ведет с вершины структуры к каждому элементу.
Структуры в виде списков и таблиц простые. Ими легко пользоваться, а к тому же их нетрудно упорядочивать. Основным методом упорядочения является сортировка. Данные можно отсортировывать по произвольно выбранному критерию, например, по алфавиту, по возрастанию порядкового номера и тому подобное.
Но простые структуры, несмотря на всю их удобство, имеют определенные недостатки. Прежде всего их трудно восстанавливать, поскольку с добавлением в таких упорядоченных структур произвольного элемента могут меняться адреса других элементов. Поэтому в системах автоматической обработки информации необходимы специальные средства для решения этой проблемы.
Иерархические структуры по форме сложнее, но у них не возникает проблем с обновлением данных. Их легко развивать, создавая новые уровни. Недостатком иерархических структур является трудоемкость записи адреса элемента, обусловленная ростом пути доступа, а также сложность их упорядочения [2, с.225].
Процедура доступа к данным может быть инициирована как самим компьютером (для решения каких-либо своих технических задач), так и конечным пользователем. В последнем случае пользователь формирует запрос, куда включает, в частности, обозначение требуемого вида доступа или действия и указание на то, над какими данными это действие надо выполнить. Как отмечалось ранее, идентификация данных осуществляется с помощью ключей. В качестве же требуемого действия может производиться одно из следующих: добавление, удаление, изменение, просмотр элемента или обработка данных из элемента.
При добавлении элемента информационный массив пополняется новыми данными в виде записи файла или файла в целом, соответственно, для структурированных и неструктурированных данных. В запросе в этом случае, помимо указанной выше информации, приводится и сам новый элемент. При этом объем информационного массива увеличивается.
Удаление, наоборот, является обратным действием, вызывающим исключение упомянутых данных. Это действие приводит к уменьшению объема информационного массива.
Изменение относится не к элементу, а к его составляющим – полям записи файла или тексту, хранящемуся в файле, и означает, в свою очередь, удаление прежних значений полей или строк текста и/или добавление новых. В запрос включается дополнительная информация, указывающая на требуемые составляющие изменяемого элемента, а также сами новые значения этих составляющих. Объем информационного массива при этом не меняется для структурированных данных и, возможно, меняется для неструктурированных;
Просмотр связан с предоставлением данных пользователю на устройстве вывода компьютера, как правило, на дисплее. В запросе в этом случае дополнительно указывается, какие составляющие элемента требуется просмотреть (по умолчанию просматривается весь элемент).
Обработка предусматривает выполнение некоторых арифметических операций над данными элемента, например, накопление суммы и т.д., и относится только к структурированным данным, а потому далее не рассматривается.
Чтобы выполнить любое их указанных выше действий, нужный элемент должен быть предварительно найден в информационном массиве, для чего выполняется его поиск (для добавления нового элемента тоже делается попытка его поиска, которая заканчивается неудачно, и тогда элемент добавляется). Под поиском элемента понимается определение его местонахождения в информационном массиве. Таким образом, любой доступ включает поиск, что делает эту фазу доступа наиболее значимой.
Технологии доступа при выполнении действий изменения элемента показана на рис. 1.
Здесь и далее сплошные линии означают управляющие связи, пунктирные - информационные связи.
Рисунок 1 - Технологии доступа при выполнении действий изменения элемента
Технологии доступа при выполнении действий добавления элемента показаны на рис. 2:
Рисунок 2 – Технологии доступа при выполнении действий добавления элемента
Технология удаления изображена на рис. 3.
Рисунок 3 – Технология удаления элемента
Технология просмотра элемента приведена на рис. 4. Различие в схемах состоит в том, что по технологии рис. 1 и 2 выполняется воздействие на информационный массив с целью его изменения, для чего в него передаются данные, по технологии рис. 3 воздействие не связано с передачей данных, а по схеме рис. 4 данные выводятся из информационного массива без его изменения.
При выполнении рассмотренных действий над элементами информационного массива на практике важны два фактора, противоречащие друг другу: временной фактор, в соответствии с которым запрос пользователя должен обрабатываться в минимальные сроки, и фактор минимизации требуемого объема памяти для хранения данных.
Рисунок 4 – Технология просмотра элемента
Для уменьшения времени обработки запроса особые усилия прилагаются к применению таких структур хранения данных, которые позволяли бы оптимизировать поисковые операции, возможно, за счет дополнительных описаний данных. Это, очевидно, повышает расход памяти. Поэтому при проектировании моделей данных учитывается предполагаемый режим эксплуатации информационного массива: если это интерактивный режим, то основное внимание уделяется минимизации времени доступа к данным, если же режим пакетный, то минимизируют требуемую память. Кроме того, на выбор модели влияют особенности той предметной области, которая отражается в структурах хранения.
В силу вышесказанного, основное внимание уделяется задачам организации хранения данных разных видов и поиска по ключам, входящим в запросы пользователей, поскольку поисковые операции и определяют, в основном, продолжительность различных действий над информационным массивом. Из приведенных типов действий в рассмотрение включены добавление и просмотр элементов данных, поскольку добавление связано с воздействием на информационный массив и изменением его объема (напомним, что удаление является обратным действием по отношению к добавлению), а просмотр - это наиболее часто выполняемые действия на практике. При этом рассматриваются общие вопросы работы с текстовой и структурированной информацией, методы и модели, используемые при организации хранения, поиска и добавления данных.