Файл: Операции, производимые с данными.pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 28.06.2023

Просмотров: 47

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Определение термина «данные»

Приведем определения понятия “данные” из различных словарей:

Большой энциклопедический словарь: ДАННЫЕ в информатике - информация, представленная в формализованном виде, что обеспечивает возможность ее хранения, обработки и передачи.

Научно-технический энциклопедический словарь - ДАННЫЕ, информация, например, списки слов, перечень результатов измерений или коды, представляющие запись изображения. Обработкой данных занимаются КОМПЬЮТЕРНЫЕ ПРОГРАММЫ. Ввод данных может осуществляться с клавиатуры или с другого устройства ввода; хранятся они в виде файлов на КОМПЬЮТЕРНОМ ДИСКЕ. Данные могут также поступать из ИНТЕРНЕТА либо других источников.

Экономико-математический словарь: Данные [data] — сведения о состоянии любого объекта —экономического или не экономического, большой системы или ее элементарной части (элемента), о человеке и машине и т. д., представленные в формализованном виде и предназначенные для обработки(или уже обработанные). Данные не обязательно должны быть числовыми: например, статистические показатели работы предприятий и анкетные сведения о человеке — все это данные

В различных ГОСТ также вводятся определения данного термина:

ГОСТ 15971-90 (Системы обработки информации. Термины и определения), ГОСТ Р 50304-92 (Системы для сопряжения радиоэлектронных средств интерфейсные. Термины и определения) - данные - Информация, представленная в виде, пригодном для обработки автоматическими средствами при возможном участии человека

ГОСТ 17657-79 (Передача данных. Термины и определения) - данные - Сведения, являющиеся объектом обработки в информационных человеко-машинных системах.

ГОСТ 34.320-96 (Информационные технологии. Система стандартов по базам данных. Концепции и терминология для концептуальной схемы и информационной базы)  - данные - Информация, представленная в формализованном виде, пригодном для передачи, интерпретации или обработки с участием человека или автоматическими средствами.

Во многих определениях используется понятие “информация”. Согласно современным подходам к разграничению данных терминов, данные - это совокупность сведений, зафиксированных на определенном носителе в форме, пригодной для постоянного хранения, передачи и обработки, тогда как информация - это результат преобразования и анализа данных. Отличие информации от данных состоит в том, что данные - это фиксированные сведения о событиях и явлениях, которые хранятся на определенных носителях, а информация появляется в результате обработки данных при решении конкретных задач. Например, в базах данных хранятся различные данные, а по определенному запросу система управления базой данных выдает требуемую информацию.


В другой интерпретации, данные – это любые зарегистрированные сигналы, а информация - данные, полученные индивидом и уменьшающие степень его неосведомленности. (по определению К. Шеннона, информация -  снятая неопределенность наших знаний о чем-то) Предполагается, что получение информации дает получившему ее возможность принимать решения, действовать, осуществлять выбор или пополнить (и/или реструктурировать) свою систему знаний. Если полученные данные не приводят ни к чему из перечисленного, то с субъективной точки зрения считается, что для получателя они информации не несут, хотя и занимают определенный объем его памяти.

В Экономико-математическом словаре разница между понятиями “Данные” и “информация” объясняется следующим образом: данные —величина, число или отношение, вводимые в процесс обработки или выводимые из него. Информация же определяется как знание, полученное из этих данных. Следовательно, обработка данных. есть приведение их к такому виду, который наиболее удобен для получения из них информации, знания. Для того, чтобы из минимального количества данных извлечь максимум информации, используются различные способы записи массивов данных, методы агрегирования и др. Для того, чтобы быть воспринятыми и стать информацией, данные. проходят как бы тройной фильтр: физический (ограничения по пропускной способности канала),семантический (соответствие правил кодирования и записи данных)) и прагматический, где оценивается полезность данных.

Операции, производимые над данными

В ходе информационного процесса данные преобразуются из одного вида в другой с помощью методов. Обработка данных включает в себя множество различных операций. По мере развития научно-технического прогресса и общего усложнения связей в человеческом обществе трудозатраты на обработку данных неуклонно возрастают. Прежде всего, это связано с постоянным усложнением условий управления производством и обществом. Второй фактор, также вызывающий общее увеличение объемов обрабатываемых данных, тоже связан с научно-техническим прогрессом, а именно с быстрыми темпами появления и внедрения новых носителей данных, средств их хранения и доставки.

В структуре возможных операций с данными можно выделить следующие основные:

  • Сбор данных – накопление информации с целью обеспечения достаточной полноты для принятия решения;
  • Хранение – это комплексный процесс обеспечения целостности, доступности и защищенности данных;
  • Удаление – это процесс, который позволяет уничтожить те или иные данные;
  • Поиск, фильтрация данных – отсеивание тех данных, в которых нет необходимости для принятия решения; при этом должны возрастать достоверность и адекватность информации;
  • Сортировка данных – упорядочение данных по заданному признаку с целью удобства их использования; при этом должна повышаться доступность информации;
  • Архивация данных – организация хранения данных в удобной и легкодоступной форме; служит для снижения  экономических затрат по хранению данных и повышает общую надёжность информационного процесса в целом;
  • Преобразование данных – перевод данных из одной формы в другую или из одной структуры в другую;
  • Защита данных – комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных;
  • Транспортировка данных – приём и передача данных между удалёнными участниками информационного процесса.

Сбор данных

Сбор подразумевает получение максимально выверенной исходной информации, является важнейшим этапом при работе с информацией. Подразумевает определённые методы и технические средства.

Сбор завершается формализацией информации, то есть получением данных. Он должен обеспечивать необходимую полноту и минимальную избыточность хранимой информации.

Средства сбора зависят от информационного примитива (звук, видео, текст, графика, числа). В промышленных масштабах используют средства сбора числовых данных, которые называются средствами автоматической идентификации. К ним относят 5 средств:

1. Технология штрихового кодирования;

2. Технология радиочастотной идентификации (GPS-навигатор, радиомаяки и т.п.);

3. Карточные технологии (зарплатная банковская карта, карта-пропуск);

4. Технологии сбора данных (охранные системы, датчики ориентации экрана в телефоне, датчик измерения объёма воздуха в автомобиле и пр.);

5. Новые технологии (распознавание голоса, оптическое распознавание текста) - пока не приобрели собственного названия.

План сбора данных:

1. Определение проблемной ситуации и постановка цели сбора;

2. Обсуждение проблемной ситуации с экспертами;

3. Разработка концепции сбора на основании выработанной гипотезы о результате;

4. Определение источников информации (первичных и вторичных);

5. Сбор вторичных данных *зачем изобретать велосипед?*;

6. Оценка вторичных данных;

7. Планирование сбора первичных данных и их сбор;

8. Оценка полученных данных;

9. Формализация информации и передача данных на хранение.

Методы сбора:

1. Опрос;

2. Интервью;

3. Наблюдение;

4. Эксперимент;

5. Панель - систематический опрос одной и той же группы наблюдаемых;

6. Экспертная оценка.

Хранение данных

Для ввода в ЭВМ информация об условиях задачи и методе её решения должна быть перенесена на специальный носитель, с которого она воспринимается ЭВМ.

Ранее использовались бумажные карты (перфокарты) или ленты (перфоленты), на которые буквы, цифры, другие символы наносились с помощью специальной системы знаков, например, совокупности пробитых и не пробитых позиций.

Также применялись магнитная лента, гибкие диски (дискеты).

В настоящее время применяются жёсткие диски, компакт-диски, DVD, флеш-карты и др.

Хранение данных - формирование и поддержка в памяти ЭВМ структуры хранения данных. На данный момент одной из самых распространенных структур хранения данных выступает файл.


Файл - физически: область внешней памяти, обладающая уникальным именем; логически: структура данных, способ хранения данных во внешней памяти.

Также данные хранятся в специально организованном программном обеспечении под общим названием базы данных.

База Данных - упорядоченная совокупность данных, предназначенных для хранения, накопления и обработки с помощью ЭВМ. Для создания и ведения базы данных (обновления, обеспечения доступа к ним по запросам и выдачи их пользователю) используется набор языковых и программных средств, называемых системой управления базы данных (СУБД).

Требования к структурам хранения:

1. Независимость от программ, которые используют данные;

2. Обеспечение полноты и минимальной избыточности данных;

3. Возможность актуализации данных (внесения изменений в файл);

4. Возможность сортировки и поиска данных по критериям (возможность извлечения данных)

На сегодняшний день файлы зависимы от программы, что является большим минусом. Полнота данных определяется субъективно пользователем. Файл удовлетворяет третьему требованию, но не существует возможности полной актуализации. Также файл не удовлетворяет четвёртому требованию - отчёт нужно составлять вручную. Если брать конкретно СУБД, то в ней нужно задать вопрос, на который автоматически происходит поиск решения, пользователь в процессе не участвует.

Данные могут храниться в виде копий резервных либо архивных копий, а также в формате структурированного хранения.

Резервное копирование - создание копий файлов для быстрого восстановления при аппаратном или программном сбое.

Виды резервного копирования:

  • Полное - еженедельное копирование всего пакета данных;
  • Инкрементальное - ежедневное копирование файлов, которые изменились со времени последнего копирования;
  • Дифференциальное - копирование файлов, которые изменились со времени последнего полного, инкрементального или дифференциального копирования.

Архивное копирование - процесс копирования файлов для бессрочного хранения, происходящий гораздо реже резервного.

Виды архивного копирования:

  • Полное;
  • Инкрементальное;
  • Дифференциальное.

Структурированное хранение - организация иерархической структуры накопителя информации, когда на верхнем уровне находятся жёсткие, а на нижнем - съёмные накопители. В своей совокупности представляют собой 2-4 жёстких диска и несколько накопителей извне.


Удаление данных

Существует как минимум три режима удаления данных: удаление, уничтожение и стирание, хотя операционные системы обеспечивают только два первых режима (режим надежного стирания данных можно обеспечить лишь специальными программными средствами).

Удаление файлов является временным. В операционных системах семейства Windows оно организовано с помощью специальной папки, которая называется Корзина. При удалении файлов и папок они перемещаются в Корзину. Эта операция происходит на уровне файловой структуры операционной системы (изменяется только путь доступа к файлам). На уровне файловой системы жесткого диска ничего не происходит — файлы остаются в тех же секторах, где и были записаны.

При уничтожении файлов файл полностью удаляется из файловой структуры операционной системы, но на уровне файловой системы диска с ним происходят лишь незначительные изменения. В операционных системах Windows это происходит при очистке Корзины. В этом случае в таблице размещения файлов он помечается как удаленный, хотя физически остается там же, где и был. Это сделано для минимизации времени операции. При этом открывается возможность записи новых файлов в кластеры, помеченные как «свободные».

Операция стирания файлов, выполняемая специальными служебными программами, состоит именно в том, чтобы заполнить якобы свободные кластеры, оставшиеся после уничтоженного файла, случайными данными. Поскольку даже после перезаписи данных их еще можно восстановить специальными аппаратными средствами (путем анализа остаточного магнитного гистерезиса), для надежного стирания файлов требуется провести не менее пяти актов случайной перезаписи в одни и те же сектора. Эта операция весьма продолжительна, и поскольку массовому потребителю она не нужна, то ее не включают в стандартные функции операционных систем.

Поиск данных

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения,данные.

Центральная задача данной операции  — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.