Файл: Методы сжатия цифровой информации.doc

ВУЗ: Не указан

Категория: Дипломная работа

Дисциплина: Не указана

Добавлен: 11.01.2024

Просмотров: 184

Скачиваний: 6

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

СОДЕРЖАНИЕ

Введение

1. Теоретические основы понятия «информация»

1.1. Понятие информации и ее свойства

1.2. Виды информации и ее кодирование

Методы сжатия информации 2.1. Методы сжатия информации без потерь Все известные алгоритмы сжатия сводятся к шифрованию входной информации, а принимающая сторона выполняет дешифровку принятых данных.Существуют методы, которые предполагают некоторые потери исходных данных, другие алгоритмы позволяют преобразовать информацию без потерь. Сжатие с потерями используется при передаче звуковой или графической информации, при этом учитывается несовершенство органов слуха и зрения, которые не замечают некоторого ухудшения качества, связанного с этими потерями.Все известные алгоритмы сжатия сводятся к шифрованию входной информации, а принимающая сторона выполняет дешифровку принятых данных.Сжатие без потерь — метод сжатия информации представленной в цифровом виде, при использовании которого закодированная информация может быть восстановлена с точностью до бита. При этом оригинальные данные полностью восстанавливаются из сжатого состояния. Этот тип сжатия принципиально отличается от сжатия данных с потерями. Для каждого из типов цифровой информации, как правило, существуют свои оптимальные алгоритмы сжатия без потерь.Сжатие данных без потерь используется во многих приложениях. Например, оно используется во всех файловых архиваторах. Оно также используется как компонент в сжатии с потерями [20].Сжатие без потерь используется, когда важна идентичность сжатых данных оригиналу. Обычный пример — исполняемые файлы и исходный код. Некоторые графические файловые форматы, такие как PNG , используют только сжатие без потерь; тогда как другие (TIFF, MNG) или GIF могут использовать сжатие как с потерями, так и без.Сжатие информации без потерь осуществляется статистическим кодированием или на основе предварительно созданного словаря. Статистические алгоритмы (например схема кодирования Хафмана) присваивают каждому входному символу определенный код. При этом, наиболее часто используемому символу присваивается наиболее короткий код, а наиболее редкому - более длинный. Таблицы кодирования создаются заранее и имеют ограниченный размер. Этот алгоритм обеспечивает наибольшее быстродействие и наименьшие задержки. Для получения высоких коэффициентов сжатия статистический метод требует больших объемов памяти. Альтернативой статистическому алгоритму является схема сжатия, основанная на динамически изменяемом словаре. Данный метод предполагает замену потока символов кодами, записанными в памяти в виде словаря (таблица перекодировки). Соотношение между символами и кодами меняется вместе с изменением данных. Таблицы кодирования периодически меняются, что делает метод более гибким. Размер небольших словарей лежит в пределах 2-32 килобайт, но более высоких коэффициентов сжатия можно достичь при заметно больших словарях до 400 килобайт [19]. 2.1.1. Кодирование длин сессий Кодирование длин серий (англ. Run-length encoding, RLE) или Кодирование повторов — простой алгоритм сжатия данных, который оперирует сериями данных, то есть последовательностями, в которых один и тот же символ встречается несколько раз подряд. При кодировании строка одинаковых символов, составляющих серию, заменяется строкой, которая содержит сам повторяющийся символ и количество его повторов.Рассмотрим изображение, содержащее простой чёрный текст на сплошном белом фоне. Здесь будет много серий белых пикселей в пустых местах, и много коротких серий чёрных пикселей в тексте. В качестве примера приведена некая произвольная строка изображения в черно-белом варианте. Здесь B представляет чёрный пиксель, а W обозначает белый:WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWWЕсли мы применим простое кодирование длин серий к этой строке, то получим следующее:12W1B12W3B24W1B14WПоследняя запись интерпретируется как «двенадцать W», «одна B», «двенадцать W», «три B» и т. д. Таким образом, код представляет исходные 67 символов в виде всего лишь 18.Однако, в случае, если строка состоит из большого количества неповторяющихся символов, её объем может вырасти.ABCABCABCABCDDEFFFFFFFF1A1B1C1A1B1C1A1B1C1A1B1C2D1E8FПроблема решается достаточно просто. Алфавит, в котором записаны длины серий, разделяется на две (обычно равные) части. Алфавит целых чисел можно, например, разделить на две части: положительные и отрицательные. Положительные используют для записи количества повторяющихся одинаковых символов, а отрицательные — для записи количества неодинаковых.-12ABCABCABCABC2D1E8FТак как численные типы данных на компьютере всегда имеют некоторый предел, возникает еще одна проблема. Предположим, мы используем signed char для записи длин серий. Тогда мы не можем записать серию длиннее 127 символов одной парой "длина-символ". Если подряд записано 256 символов A, их разделяют на минимальное количество групп:127A127A2AЗапись на некотором языке программирования алгоритма RLE с учетом этих ограничений нетривиальна.Конечно, кодирование, которое используется для хранения изображений, оперирует с двоичными данными, а не с символами ASCII, как в рассмотренном примере, однако принцип остаётся тот же.Очевидно, что такое кодирование эффективно для данных, содержащих большое количество серий, например, для простых графических изображений, таких как иконки и графические рисунки. Однако это кодирование плохо подходит для изображений с плавным переходом тонов, таких как фотографии.Распространённые форматы для упаковки данных с помощью RLE включают в себя PackBits, PCX и ILBM.Методом кодирования длин серий могут быть сжаты произвольные файлы с двоичными данными, поскольку спецификации на форматы файлов часто включают в себя повторяющиеся байты в области выравнивания данных. Тем не менее, современные системы сжатия (например, DEFLATE) чаще используют алгоритмы на основе LZ77, которые являются обобщением метода кодирования длин серий и оперируют с последовательностями символов вида «BWWBWWBWWBWW» [1]. 2.1.2. Алгоритм LZ78-LZW84 Алгоритм LZ78, предложенный в 1978 г. Лемпелом и Зивом, нашел свое практическое применение только после реализации LZW84, предложенной Велчем в 1984 г. Словарь является расширяющимся (expanding). Первоначально в нем содержится только 256 строк длиной в одну букву-все коды ASCII. В процессе работы словарь разрастается до своего максимального объема |Vmax| строк (слов). Обычно, объем словаря достигает нескольких десятков тысяч слов. Каждая строка в словаре имеет свою известную длину и этим похожа на привычные нам книжные словари и отличается от строк LZ77, которые допускали использование подстрок. Таким образом, количество слов в словаре точно равно его текущему объему. В процессе работы словарь пополняется по следующему закону:1. В словаре ищется слово str, максимально совпадающее с текущим кодируемым словом в позиции pos исходного текста. Так как словарь первоначально не пустой, такое слово всегда найдется;2. В выходной файл помещается номер найденного слова в словаре position и следующий символ из входного текста В (на котором обнаружилось различие) - . Длина кода равна |position|+|B||=[logVmax]+8 (бит);3. Если словарь еще не полон, новая строка strВ добавляется в словарь по адресу last_position, размер словаря возрастает на одну позицию;4. Указатель в исходном тексте pos смещается на |strB|=|str|+l байт дальше к символу, следующему за В.В таком варианте алгоритм почти не нашел практического применения и был значительно модернизирован. Изменения коснулись принципов управления словарем (его расширения и обновления) и способа формирования выходного кода:так как словарь увеличивается постепенно и одинаково для кодировщика и декодировщика, для кодирования позиции нет необходимости использовать [logVmax] бит, а можно брать лишь [logV] бит, где V-текущий объем словаря.Самая серьезная проблема LZ78-переполнение словаря: если словарь полностью заполнен, прекращается его обновление и процесс сжатия может быть заметно ухудшен (метод FREEZE). Отсюда следует вывод-словарь нужно иногда обновлять. Самый простой способ как только словарь заполнился его полностью обновляют. Недостаток очевиден кодирование начинается на пустом месте, как бы с начала, и пока словарь не накопится сжатие будет незначительным, а дальше-замкнутый цикл опять очистка словаря!.. Поэтому предлагается словарь обновлять не сразу после его заполнения, а только после того, как степень сжатия начала падать (метод FLUSH). Более сложные алгоритмы используют два словаря, которые заполняются синхронно, но с задержкой на |V|/2 слов один относительно другого. После заполнения одного словаря, он очищается, а работа переключается на другой (метод SWAP). Еще более сложными являются эвристические методы обновления словарей в зависимости от частоты использования тех или иных слов (LRU, TAG).Выходной код также формируется несколько иначе (сравните с предыдущим описанием):1. В словаре ищется слово str, максимально совпадающее с текущим кодируемым словом в позицииpos исходного текста;2. В выходной файл помещается номер найденного слова в словаре . Длина кода равна |position|=[logV] (бит);3. Если словарь еще не полон, новая строка strВ добавляется в словарь по адресу last_position, размер словаря возрастает на одну позицию;4. Указатель в исходном тексте pos смещается на |str| байт дальше к символу В [6]. 2.1.3. Алгоритм LZW Алгоритм Лемпеля — Зива — Велча (LZW) — это универсальный алгоритм сжатия данных без потерь, созданный Абрахамом Лемпелем, Якобом Зивом и Терри Велчем. Он был опубликован Велчем в 1984 году, в качестве улучшенной реализации алгоритма LZ78, опубликованного Лемпелем и Зивом в 1978 году. Алгоритм разработан так, чтобы его можно было быстро реализовать, но он не обязательно оптимален, поскольку он не проводит никакого анализа входных данных.Данный алгоритм при сжатии (кодировании) динамически создаёт таблицу преобразования строк: определённым последовательностям символов (словам) ставятся в соответствие группы бит фиксированной длины (обычно 12-битные). Таблица инициализируется всеми 1-символьными строками (в случае 8-битных символов — это 256 записей). По мере кодирования, алгоритм просматривает текст символ за символом, и сохраняет каждую новую, уникальную 2-символьную строку в таблицу в виде пары код/символ, где код ссылается на соответствующий первый символ. После того как новая 2-символьная строка сохранена в таблице, на выход передаётся код первого символа. Когда на входе читается очередной символ, для него по таблице находится уже встречавшаяся строка максимальной длины, после чего в таблице сохраняется код этой строки со следующим символом на входе; на выход выдаётся код этой строки, а следующий символ используется в качестве начала следующей строки.Алгоритму декодирования на входе требуется только закодированный текст, поскольку он может воссоздать соответствующую таблицу преобразования непосредственно по закодированному тексту.Алгоритм: Инициализация словаря всеми возможными односимвольными фразами. Инициализация входной фразы w первым символом сообщения. Считать очередной символ K из кодируемого сообщения. Если КОНЕЦ_СООБЩЕНИЯ, то выдать код для w, иначе Если фраза wK уже есть в словаре, присвоить входной фразе значение wK и перейти к Шагу 2, иначе выдать код w, добавить wK в словарь, присвоить входной фразе значение K и перейти к Шагу 2. На момент своего появления алгоритм LZW давал лучший коэффициент сжатия, для большинства приложений, чем любой другой хорошо известный метод того времени. Он стал первым широко используемым на компьютерах методом сжатия данных.Алгоритм был реализован в программе compress, которая стала более или менее стандартной утилитой Unix-систем приблизительно в 1986 году. Несколько других популярных утилит-архиваторов также используют этот метод или близкие к нему [11].В 1987 году алгоритм стал частью стандарта на формат изображений GIF. Он также может (опционально) использоваться в формате TIFF. В настоящее время, алгоритм содержится в стандарте PDF. 2.1.4. Алгоритм FLAC FLAC — популярный свободный кодек, предназначенный для сжатия аудиоданных без потерь. В отличие от аудио-кодеков, обеспечивающих сжатие с потерями (MP3, AAC, WMA, Ogg Vorbis) FLAC не удаляет никакой информации из аудиопотока и подходит как для прослушивания музыки на высококачественной звуковоспроизводящей аппаратуре, так и для архивирования аудиоколлекции.На сегодня формат FLAC поддерживается множеством аудиоприложений, а также имеет большое количество аппаратных реализаций.Основными частями потока являются: Строка из четырёх байтов «fLaC» Блок метаданных STREAMINFO Другие необязательные блоки метаданных Аудио фреймы Первые четыре байта идентифицируют поток FLAC. Следующие за ними метаданные содержат информацию о потоке, затем идут сжатые аудиоданные.По состоянию на 10.03.2010 в libflac-1.2.1 определены следующие типы блоков: StreamInfo, Padding, Application, SeekTable, VorbisComment, CueSheet, Picture, Unknown. Блоки метаданных могут быть любого размера, новые блоки могут быть легко добавлены. Декодер имеет возможность пропускать неизвестные ему блоки метаданных. Блок STREAMINFO является обязательным. В нём содержатся данные, позволяющие декодеру настроить буферы, частота дискретизации, количество каналов, количество бит на семпл и количество семплов. Также в блок записывается подпись MD5 несжатых аудиоданных. Это полезно для проверки всего потока после его передачи [17].Другие блоки предназначены для резервирования места, хранения таблиц точек поиска, тегов, список разметки аудиодисков, а также данных для конкретных приложений. Опции для добавления блоков PADDING или точек поиска приведены ниже. FLAC не нуждается в точках поиска, однако они позволяют значительно увеличить скорость доступа, а также могут быть использованы для расстановки меток в аудио редакторах. Точное описание структур стандартных блоков можно найти в файле format.h библиотеки libflac, доступной с сайта формата.За метаданными следуют сжатые аудиоданные. Метаданные и аудиоданные не чередуются. Как и большинство кодеков, FLAC делит входной поток на блоки и кодирует их независимо друг от друга. Блок упаковывается во фрейм и добавляется к потоку. Базовый кодер использует блоки постоянного размера для всего потока, однако формат предусматривает наличие блоков разной длины в потоке.Размер блока — очень важный параметр для кодирования. Если он очень мал, то в потоке будет слишком много заголовков фреймов, что уменьшит уровень сжатия. Если размер большой, то кодер не сможет подобрать эффективную модель сжатия. Понимание процесса моделирования поможет Вам увеличить уровень сжатия для некоторых типов входных данных. Обычно при использовании линейного прогнозирования на аудиоданных с частотой дискретизации 44.1 кГц оптимальный размер блока лежит в диапазоне 2-6 тысяч семплов.Если на вход поступают стерео аудиоданные, они могут пройти через стадию межканальной декорреляции. Правый и левый канал преобразуются к среднему и разностному по формулам: средний = (левый + правый)/2, разностный = левый — правый. В отличие от joint stereo, используемом в lossy кодерах, в lossless кодировании этот процесс не приводит к потерям. Для данных с аудио компакт-дисков это обычно приводит к значительному увеличению уровня сжатия.На следующем этапе кодер пытается аппроксимировать сигнал такой функцией, чтобы полученный после её вычитания из оригинала результат (называемый разностью, остатком, ошибкой) можно было закодировать минимальным количеством битов. Параметры функций тоже должны записываться, поэтому они не должны занимать много места. FLAC использует два метода формирования аппроксимаций [9]: подгонка простого полинома к сигналу общее кодирование с линейными предикторами (LPC). Во-первых, постоянное полиномиальное предсказание (-l 0) работает значительно быстрее, но менее точно, чем LPC. Чем выше порядок LPC, тем медленнее, но лучше будет модель. Однако с увеличением порядка выигрыш будет все менее значительным. В некоторой точке (обычно около 9) процедура кодера, определяющая наилучший порядок, начинает ошибаться и размер получаемых фреймов возрастает. Чтобы преодолеть это, можно использовать полный перебор, что приведёт к значительному увеличению времени кодирования.Во-вторых, параметры для постоянных предикторов могут быть описаны тремя битами, а параметры для модели LPC зависят от количества бит на семпл и порядка LPC. Это значит, что размер заголовка фрейма зависит от выбранного метода и порядка и может повлиять на оптимальный размер блока.Когда модель подобрана, кодер вычитает приближение из оригинала, чтобы получить остаточный (ошибочный) сигнал, который затем кодируется без потерь. Для этого используется то обстоятельство, что разностный сигнал обычно имеет распределение Лапласа и есть набор энтропийных кодов, называемый кодами Райса, позволяющий эффективно и быстро кодировать эти сигналы без использования словаря.Кодирование Райса состоит из нахождения одного параметра, отвечающего распределению сигнала, а затем использования его для составления кодов. При изменении распределения меняется и оптимальный параметр, поэтому имеется метод позволяющий пересчитывать его по необходимости. Остаток может быть разбит на контексты или разделы, у каждого из которых будет свой параметр Райса. FLAC позволяет указать, как нужно производить разбиение. Остаток может быть разбит на 2n разделов.Аудиофрейму предшествует заголовок, который начинается с кода синхронизации и содержит минимум информации, необходимой декодеру для воспроизведения потока. Сюда также записывается номер блока или семпла и восьмибитная контрольная сумма самого заголовка. Код синхронизации, CRC заголовка фрейма и номер блока/семпла позволяют осуществлять пересинхронизацию и поиск даже в отсутствие точек поиска. В конце фрейма записывается его шестнадцатибитная контрольная сумма. Если базовый декодер обнаружит ошибку, будет сгенерирован блок тишины [3]. 2.1.5. Код Хаффмана Алгоритм Хаффмана — адаптивный жадный алгоритм оптимального префиксного кодирования алфавита с минимальной избыточностью. Был разработан в 1952 годуаспирантом Массачусетского технологического института Дэвидом Хаффманом при написании им курсовой работы. В настоящее время используется во многих программах сжатия данных.В отличие от алгоритма Шеннона — Фано, алгоритм Хаффмана остаётся всегда оптимальным и для вторичных алфавитов m2 с более чем двумя символами.Этот метод кодирования состоит из двух основных этапов: Построение оптимального кодового дерева. Построение отображения код-символ на основе построенного дерева. Один из первых алгоритмов эффективного кодирования информации был предложен Д. А. Хаффманом в 1952 году. Идея алгоритма состоит в следующем: зная вероятности символов в сообщении, можно описать процедуру построения кодов переменной длины, состоящих из целого количества битов. Символам с большей вероятностью ставятся в соответствие более короткие коды. Коды Хаффмана обладают свойством префиксности, что позволяет однозначно их декодировать.Классический алгоритм Хаффмана на входе получает таблицу частот встречаемости символов в сообщении. Далее на основании этой таблицы строится дерево кодирования Хаффмана (Н-дерево). Символы входного алфавита образуют список свободных узлов. Каждый лист имеет вес, который может быть равен либо вероятности, либо количеству вхождений символа в сжимаемое сообщение. Выбираются два свободных узла дерева с наименьшими весами. Создается их родитель с весом, равным их суммарному весу. Родитель добавляется в список свободных узлов, а два его потомка удаляются из этого списка. Одной дуге, выходящей из родителя, ставится в соответствие бит 1, другой — бит 0. Шаги, начиная со второго, повторяются до тех пор, пока в списке свободных узлов не останется только один свободный узел. Он и будет считаться корнем дерева [10]. Допустим, у нас есть следующая таблица частот (см.табл.1) :Таблица 1 15 7 6 5 5 А Б В Г Д Этот процесс можно представить как построение дерева, корень которого — символ с суммой вероятностей объединенных символов, получившийся при объединении символов из последнего шага, его n0 потомков — символы из предыдущего шага и т. д.Чтобы определить код для каждого из символов, входящих в сообщение, мы должны пройти путь от листа дерева, соответствующего этому символу, до корня дерева, накапливая биты при перемещении по ветвям дерева. Полученная таким образом последовательность битов является кодом данного символа, записанным в обратном порядке.Для данной таблицы (табл.2) символов коды Хаффмана будут выглядеть следующим образом.Таблица 2 А Б В Г Д 0 100 101 110 111 Поскольку ни один из полученных кодов не является префиксом другого, они могут быть однозначно декодированы при чтении их из потока. Кроме того, наиболее частый символ сообщения А закодирован наименьшим количеством бит, а наиболее редкий символ Д — наибольшим.При этом общая длина сообщения, состоящего из приведённых в таблице символов, составит 87 бит (в среднем 2,2308 бита на символ). При использовании равномерного кодирования общая длина сообщения составила бы 117 бит (ровно 3 бита на символ). Заметим, что энтропия источника, независимым образом порождающего символы с указанными частотами составляет

2.2. Методы сжатия информации с потерями

Заключение

Список использованных источников



Министерство образования и науки Республики Тыва

Государственное бюджетное профессиональное образовательное учреждение

Республики Тыва

«Тувинский техникум народных промыслов»

ДИПЛОМНАЯ РАБОТА

на тему

«Методы сжатия цифровой информации»


Выполнил: студентка 1 курса

Хертек А.М.

Специальности: мастер по обработке цифровой

информации

Мастер п.о.: Саая С-Х.В.

Оценка_________________
Кызыл 2020
Содержание

Введение 3

1. Теоретические основы понятия «информация» 5

1.1. Понятие информации и ее свойства 5

1.2. Виды информации и ее кодирование 8

1.Методы сжатия информации 12

2.1. Методы сжатия информации без потерь 12

2.1.1. Кодирование длин сессий 13

2.1.2. Алгоритм LZ78-LZW84 15

2.1.3. Алгоритм LZW 17

2.1.4. Алгоритм FLAC 19

2.1.5. Код Хаффмана 22

2.1.6. Алгоритм PPM 28

2.1.7. Алгоритм BWT 29

2.1.8. Алгоритм арифметического кодирования 30

2.2. Методы сжатия информации с потерями 32

2.2.1. Алгоритм JPEG 33

2.2.2. Алгоритм МРЗ 34

2.2.3. Алгоритмы МРЕG 35

Заключение 36

Список использованных источников 37



Введение


С ростом использования компьютеров в мире бизнеса и персональных компьютеров объём данных, хранящихся в Интернете, значительно вырос. Данное явление привело к необходимости сжатия данных. Передача информации с помощью Интернета имеет решающее значение для всех типов бизнес-структур на всех уровнях. По мере развития технологий скорость передачи данных также может быть достигнута путём улучшения алгоритмов сжатия, через которое передаются данные, или путём изменения формата данных, чтобы данные могли передаваться с низкой стоимостью и максимальной скоростью. Сжатие данных также полезно, поскольку оно помогает снизить потребление дорогостоящих ресурсов, таких как пространство на жёстком диске или пропускная способность передачи данных.

Сжатие данных является очень важной темой для многих приложений. Многие методы сжатия данных были изучены в течение 40 лет. Хотя алгоритмы изменились и улучшились по эффективности, они играют важную роль в повседневной обработке компьютерного бизнеса и в компьютерной науке в целом. Поскольку мы продолжаем использовать компьютеры практически для всех наших задач, потребность в сжатии данных растет с каждым днем. В последние годы компании начали предлагать услуги резервного копирования пользователям персональных компьютеров. Компьютерные данные сжимаются для всего, что мы делаем, от банковских операций до отправки текстовых сообщений. А без технологии сжатия данных все это было бы невозможно. Но поскольку сжатие данных достигло значительных успехов, эта услуга возможна без использования большого пространства на жестком диске.


Объектом данной дипломной работы является методы сжатия информации.

Предмет - анализ и определение основных методов сжатия цифровой информации.

Целью данной дипломной работы является определение и подробное изучение основных методов сжатия цифровой информации.

В соответствии с поставленной целью в работе были выявлены следующие задачи:

— рассмотрение теоретических основ понятия «информация»;

— определение основных типов методов сжатия информации;

— исследование методов сжатия без потерь и с потерями.

Работа состоит из введения, двух глав, заключения и списка литературы.

1. Теоретические основы понятия «информация»

1.1. Понятие информации и ее свойства


Ключевым понятием информатики является понятие информации, с которым мы сталкиваемся ежедневно, однако единого се определения до сих пор не существует. Поэтому вместо определения обычно используют понятие об информации. Первоначально под информацией (от дат. infbrmatio — разъяснение. изложение, сообщение, осведомление) понимались сведения, передаваемые людьми различными способами: устно, с помощью сигналов или технических средств.

Мы часто слышим и используем термин «информация», но редко задумываемся, что же это такое на самом деле.В науке есть такое понятие, как энтропия — мера неопределенности. Фактически информация уменьшает энтропию, так как увеличивает объем наших знаний. Для того чтобы это уяснить, введем понятие сообщения. Вот два сообщения:

1. В данный момент вы читаете учебник.

2. Основным запоминающим элементом компьютера является релаксационная электронная схема, называемая триггером.

Первое сообщение не несет какой-либо новизны, не сообщает ничего нового. Во втором случае сообщение содержит новизну, так как раньше вы этого не знали. А если второе сообщение передать инженеру по компьютерной технике, будет ли оно содержать для него новизну? Конечно, нет. Для разных приемников сообщений одно и то же сообщение может содержать, а может и не содержать элемент новизны.

Федеральный закон от 27.07.2006 № 149-ФЗ «Об информации, информатизации, информационных технологиях и о защите информации» определяет информацию следующим образом.



Информация — сведения (сообщения, данные) независимо от формы их представления [2].

Информатизация — организационный социально-экономический и научно-технический процесс создания оптимальных условий для удовлетворения информационных потребностей и реализации прав граждан, органов государственной власти, органов местного самоуправления, организаций, общественных объединений на основе формирования и использования информационных ресурсов.

Основные понятия, определения и термины информатики также определяются ГОСТ 15971—90 «Системы обработки информации.

Термины и определения», согласно которому, информация — это сведения о фактах, концепциях, объектах, событиях и идеях, которые в данном контексте имеют вполне определенное значение. Отметим, что информация — это не просто сведения, а сведения нужные, имеющие значение для лица, обладающего ими. В этих определениях информации отражены основные важные свойства понятия информации.

Во-первых, информация не является материальным объектом, ее передают от одного человека к другому, при этом первый ее не утрачивает. В результате передачи оба эти человека будут владеть переданной информацией. Информация — единственный ресурс, который при передаче не уменьшается, а только увеличивается.

Во-вторых, для передачи информация должна быть представлена на каком-нибудь материальном носителе.

В-третьих, содержание информации должно быть неизменным при ее переносе с одного носителя информации на другой.

Сообщение от источника к приемнику передается в материально-энергетической форме (электрический, световой, в виде звуковых сигналов и т.д.). В зависимости от вида сигнала, определяемого свойствами передающего устройства, различают непрерывную (аналоговую) и дискретную (цифровую) информацию.

Источником аналоговой информации обычно являются различные природные объекты (например, температура, давление и влажность воздуха), объекты технологических производственных процессов (например, нейтронный поток в активной зоне, давление и температура теплоносителя в контурах ядерного реактора) и др.

Информационные сообщения, используемые человеком, имеют характер дискретных сообщений, например сигналы тревоги, передаваемые посредством световых сообщений, телеграфные сигналы, языковые сообщения, передаваемые в письменном виде или с помощью звуковых сигналов и др.


Человек воспринимает сообщения при помощи органов чувств, и, как правило, в основном это непрерывная информация, а вот логическое мышление человека имеет, скорее, дискретный характер.

войства информации. При работе с информацией и разработке информационных систем и технологий важно оценить свойства поступающей, хранимой и передаваемой информации

Сформулируем следующие определения свойств информации.

Адекватность— свойство информации однозначно соответствовать отображаемому объекту или явлению.

Достоверность — свойство информации не иметь скрытых ошибок.

Полнота — свойство информации исчерпывающе характеризовать отображаемый объект или процесс. ^

Доступность — свойство информации, характеризующее возможность се получения данным пользователем.

Релевантность — способность информации соответствовать запросам пользователя.

Качество информации — обобщенная положительная характеристика информации, отражающая степень ее полезности.

Актуальность информации — степень соответствия информации текущему моменту времени. Нередко с актуальностью, как и с полнотой, связывают коммерческую ценность информации,

Существуют еще и другие, менее существенные свойства информации.

Краткость и четкость информации — отсутствие в информации ненужных сведении.

Ценность — степень важности информации для решения задачи.

Понятность — выражение информации на языке, понятном чем, кому она предназначена.

Своевременность — актуальность информации и наличие в ней сведений, необходимых в данный момент для понимания и принятия решения [5].

1.2. Виды информации и ее кодирование


Виды информации. Обычно для классификации объектов одной природы используется то или иное свойство либо набор свойств объектов. Нас интересует классификация информации в плане автоматизации основных информационных процессов.

Первоначально вычислительные машины применялись только для обработки числовой информации, однако довольно быстро выяснилось, что их возможности не ограничиваются только работой с числами.

Далеко не вся информация окружающего нас мира может быть обработала компьютером, ведь пока не придумали такого компьютера, который мог бы чувствовать или наслаждаться произведениями искусства. Поэтому, говоря об информации, необходимо выделить тс се вилы, которые компьютер воспримет и позволит человеку использовать свои ресурсы для обработки, хранения и передачи такой информации.

Компьютер может работать с текстовой, числовой, табличной, графической информацией, а также со звуковой, анимационной и видеоинформацией. Также компьютер воспринимает специальную двоичную информацию.

В настоящее время практически все компьютерные технологии ограничиваются обработкой перечисленных видов информации. С развитием компьютерной техники увеличиваются объемы перерабатываемой информации. И хотя современные компьютеры могут делать очень много, все же их возможности не безграничны. Наибольший эффект от применения компьютера будет там, где оправдано его применение.

Кодирование информации — это преобразование одной последовательности сигналов в другую. Под кодированием данных понимается выражение данных одного типа через данные другого типа. Для автоматизации работы с данными, относящимися к различным типам, очень важно унифицировать их форму представления, поэтому обычно используется прием кодирования [7].

Человеческий язык — это система кодирования понятий для выражения мыслей посредством речи. Азбуки — системы кодирования компонентов языка с помощью графических символов.

Своя системы существует и в вычислительной технике. Она называется двоичным кодированием и основана на представлении данных последовательностью всего двух цифр: 0 и 1.