Добавлен: 28.06.2023
Просмотров: 87
Скачиваний: 3
Помимо данной основной задачи, на сегодня системы поиска информации служат также следующим целям:
- Вопросы моделирования;
- Классификация документов;
- Фильтрация документов;
- Кластеризация документов;
- Проектирование архитектур поисковых систем и пользовательских интерфейсов;
- Извлечение информации, в частности аннотирования и реферирования документов;
- Языки запросов.
Также, перед движками информационного поиска ставятся некоторые задачи по обработке естественных языков, что включает в себя морфологический анализ, разрешение лексической многозначности и так далее.
В общем случае поиск информации состоит из четырех этапов:
- Определение (уточнение) информационной потребности и формулировка информационного запроса;
- Определение совокупности возможных держателей информационных массивов (источников);
- Извлечение информации из выявленных информационных массивов;
- Ознакомление с полученной информацией и оценка результатов поиска
Основные виды поиска информации:
Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru,www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.
Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).
Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.
Одним из самых распространенных инструментов поиска данных является фильтрация. С помощью фильтров осуществляется выбор из базы данных тех записей, которые удовлетворяют требованиям пользователя. Фильтр — это условие, по которому производится поиск и отбор записей. Фильтрация позволяет взглянуть на объекты с разных сторон, отбросив лишнюю, не представляющую интереса для данного случая информацию. Таим образом, фильтрация данных - это отбор необходимой информации по определенным критериям - условиям запроса. В разрезе информационных технологий фильтрация данных чаще всего рассматривается на примере данных, представленных в виде двухмерных таблиц. С подобной точки зрения, фильтрация данных — это быстрый и простой способ найти подмножество данных и работать с ним в диапазоне ячеек или в столбце таблицы. В отфильтрованных данных отображаются только строки, соответствующие заданным условия, а ненужные строки скрываются. Можно также отфильтровать несколько столбцов.
2.5 Сортировка данных
Сортировка записей представляет собой упорядочивание элементов в списке. В сфере информационных технологий сортировка встречается повсеместно, в том числе при работе с записями в базах данных и двухмерных таблицах. В этом случае, Сортировка базы данных - это упорядочение записей по значениям одного из полей. Сортировка записей производится по какому-либо полю. Значения, содержащиеся в этом поле, располагаются в порядке возрастания или убывания. В процессе сортировки целостность записей сохраняется, т. е. строки таблицы перемещаются целиком.
При сортировке по возрастанию данные различных типов выстраиваются в следующем порядке:
- Числа — от наименьшего отрицательного до наибольшего положительного числа;
- Текст — в алфавитном порядке (числа, знаки, латинский алфавит, русский алфавит);
- Дата и время — в хронологическом порядке. При сортировке по убыванию данные выстраиваются в порядке, обратном вышеуказанному.
В базах данных можно проводить вложенные сортировки, т. е. сортировать данные последовательно по нескольким полям. При вложенной сортировке строки, имеющие одинаковые значения в ячейках первого поля, будут упорядочены по значениям в ячейках второго поля, а строки, имеющие одинаковые значения во втором поле, будут упорядочены по значениям третьего поля.
2.6 Архивация данных
Архивация - это сжатие одного или более файлов с целью экономии памяти и размещение сжатых данных в одном архивном файле, уменьшение физических размеров файлов, в которых хранятся данные, без значительных информационных потерь.
Архивация проводится, в том числе, в следующих случаях:
- Когда необходимо создать резервные копии наиболее ценных файлов;
- Когда необходимо освободить место на диске;
- Когда необходимо передать файлы по каналам с ограниченной пропускной способностью.
Возможность уплотнения данных основана на том, что информация часто обладает избыточностью, которая зависит от вида информации. Случайная потеря 10% фотографии, скорее всего, не повлияет на ее информативность. Если на странице книги отсутствует 10% строк, то понять ее содержание уже трудно. Если взять программный код, в котором утрачено 10% информации, то восстановить его, скорее всего, уже не удастся. У этих видов данных разная избыточность. Несмотря на то, что объемы внешней памяти ЭВМ постоянно растут, потребность в архивации не уменьшается. Это объясняется тем, что архивация необходима не только для экономии места в памяти, но и для надежного хранения копий ценной информации, а также для быстрой передачи информации по сети на другие ЭВМ. Кроме того, возможность отказа магнитных носителей информации, разрушающее действие вирусов заставляет пользователей делать резервное копирование ценной информации на другие (запасные) носители информации.
Процесс записи файла в архивный файл называется архивированием (упаковкой, сжатием), а извлечение файла из архива – разархивированием (распаковкой).
Упакованный (сжатый) файл называется архивом. Архив содержит оглавление, позволяющее узнать, какие файлы содержатся в архиве. В оглавлении архива для каждого содержащегося в нем файла хранится следующая информация:
- Имя файла;
- Сведения о каталоге, в котором содержится файл;
- Дата и время последней модификации файла;
- Размер файла на диске и в архиве;
- Код циклического контроля для каждого файла, используемый для проверки целостности архива.
В настоящее время разработано много алгоритмов архивации без потерь. Однако все они используют, в основном, 2 простые идеи.
- Метод Хаффмана (1952) – основан на учете частот символов. Часто встречающиеся символы кодируются короткими последовательностями битов, а более редкие символы – длинными последовательностями битов. К каждому сжатому архиву прикладывается таблица соответствия имеющихся символов и кодов, заменяющих эти символы.
- Метод RLE (Run Length Encoding) – основан на выделении повторяющихся фрагментов. В сообщениях часто встречаются несколько подряд идущих одинаковых байтов, а некоторые последовательности байтов повторяются многократно. При упаковке такие места можно заменить командами вида: «повторить данный байт n раз» или «взять часть текста длиной k байт, которые встречалась m байтов назад». При упаковке графической информации чаще встречается первая ситуация, при упаковке текстов – вторая.
2.7 Преобразование данных
Преобразование данных, часто называемое конвертацией представляет собой преобразование данных из одного формата в другой, либо из одной структуры в другую, обычно с сохранением основного логически-структурного содержания информации. Преобразование данных часто связано с изменением типа носителя, например, книги можно хранить в обычной бумажной форме, но можно использовать для этого и электронную форму, и микрофотопленку. Необходимость в многократном преобразовании данных возникает также при их транспортировке, особенно если она осуществляется средствами, не предназначенными для транспортировки данного вида данных. В качестве примера можно упомянуть, что для транспортировки цифровых потоков данных по каналам телефонных сетей (которые изначально были ориентированы только на передачу аналоговых сигналов в узком диапазоне частот) необходимо преобразование цифровых данных в некое подобие звуковых сигналов, чем и занимаются специальные устройства - телефонные модемы.
Конвертация данных может происходить как при операциях с файлами (операции файл->файл), так и «на лету» (например при импорте или экспорте данных, или при операциях с использованием конвейеров).
2.8 Защита данных
Защита информации – это применение различных средств и методов, использование мер и осуществление мероприятий для того, чтобы обеспечить систему надежности передаваемой, хранимой и обрабатываемой информации.
Объект защиты – это такой компонент системы, в котором находится защищаемая информация. Элементом защиты является совокупность данных, которая может содержать необходимые защите сведения.
Защита информации включает в себя:
- Обеспечение физической целостности информации, исключение искажений или уничтожения элементов информации;
- Недопущение подмены элементов информации при сохранении ее целостности;
- Отказ в несанкционированном доступе к информации лицам или процессам, которые не имеют на это соответствующих полномочий;
- Приобретение уверенности в том, что передаваемые владельцем информационные ресурсы будут применяться только в соответствии с обговоренными сторонами условиями.
Процессы по нарушению надежности информации подразделяют на случайные и злоумышленные (преднамеренные). Источниками случайных разрушительных процессов являются непреднамеренные, ошибочные действия людей, технические сбои. Злоумышленные нарушения появляются в результате умышленных действий людей.
Проблема защиты информации в системах электронной обработки данных возникла практически одновременно с их созданием. Ее вызвали конкретные факты злоумышленных действий над информацией.
Важность проблемы по предоставлению надежности информации подтверждается затратами на защитные мероприятия. Для обеспечения надежной системы защиты необходимы значительные материальные и финансовые затраты. Перед построением системы защиты должна быть разработана оптимизационная модель, позволяющая достичь максимального результата при заданном или минимальном расходовании ресурсов. Расчет затрат, которые необходимы для предоставления требуемого уровня защищенности информации, следует начинать с выяснения нескольких фактов: полного перечня угроз информации, потенциальной опасности для информации каждой из угроз, размера затрат, необходимых для нейтрализации каждой из угроз.
Для обеспечения безопасности проводятся разные мероприятия, которые объединены понятием «система защиты информации».
Система защиты информации – это совокупность организационных (административных) и технологических мер, программно-технических средств, правовых и морально-этических норм, которые применяются для предотвращения угрозы нарушителей с целью сведения до минимума возможного ущерба пользователям и владельцам системы.
Организационно-административными средствами защиты называется регламентация доступа к информационным и вычислительным ресурсам, а также функциональным процессам систем обработки данных. Эти средства защиты применяются для затруднения или исключения возможности реализации угроз безопасности. Наиболее типичными организационно-административными средствами являются:
- Допуск к обработке и передаче охраняемой информации только проверенных должностных лиц;
- Хранение носителей информации, которые представляют определенную тайну, а также регистрационных журналов в сейфах, недоступных для посторонних лиц;
- Учет применения и уничтожения документов (носителей) с охраняемой информацией;
- Разделение доступа к информационным и вычислительным ресурсам должностных лиц в соответствии с их функциональными обязанностями.
Технические средства защиты применяются для создания некоторой физически замкнутой среды вокруг объекта и элементов защиты. При этом используются такие мероприятия, как:
- Ограничение электромагнитного излучения через экранирование помещений, в которых осуществляется обработка информации;
- Реализация электропитания оборудования, отрабатывающего ценную информацию, от автономного источника питания или общей электросети через специальные сетевые фильтры.
Программные средства и методы защиты являются более активными, чем другие применяемые для защиты информации в ПК и компьютерных сетях. Они реализуют такие функции защиты, как разграничение и контроль доступа к ресурсам; регистрация и изучение протекающих процессов; предотвращение возможных разрушительных воздействий на ресурсы; криптографическая защита информации.
Под технологическими средствами защиты информации понимаются ряд мероприятий, органично встраиваемых в технологические процессы преобразования данных. В них также входят:
- Создание архивных копий носителей;
- Ручное или автоматическое сохранение обрабатываемых файлов во внешней памяти компьютера;
- Автоматическая регистрация доступа пользователей к различным ресурсам;
- Выработка специальных инструкций по выполнению всех технологических процедур и др.