Файл: Методы кодирования данных (История кодирования данных).pdf

Получение и эффективная обработка данных есть неотделимое от жизни явление, ведь от этого зависит любое живое существо. От простейших до высших млекопитающих – любое животное воспринимает данные из окружающей среды, обрабатывает их и благодаря этому благостно существует в природе. Кроме того, любое живое существо представляет собой носитель определенного набора генетической информации, которая потом передастся потомкам. Генетические данные определяют строение, здоровье, внутренний и внешний вид и развитие живого существа, которому принадлежат.

Если говорить в частности о человеке, то людьми окружающая действительность воспринимается посредством органов чувств, после чего она обрабатывается мозгом и предоставляет субъективную информацию об объективной реальности. Иначе говоря – человек формирует, а после и живет в мире информации.

И сегодня, чем дальше развивается человечество, тем более изощренные способы и методы ее обработки появляются. Это, в некоторой степени связано и с тем, что потоки информации огромны и всеобъемлющи, и одной из наиболее зависимых сфер является экономическая сфера. Так, в зависимости от скорости обработки информации, та или иная организация может быть более или менее конкурентоспособной на своем рынке. И правда, сегодня сложно представить современную организацию без автоматизированной системы обработки информации. А информацию необходимо обрабатывать корректно и сделать это таким образом, чтобы был сохранен баланс компьютер-человек.

Для того чтобы подробнее разобраться в вопросе, необходимо достичь цели исследования – изучить методы кодирования данных.

Для достижения данной цели необходимо выполнить следующие задачи:

проанализировать историю кодирования данных;
рассмотреть понятие и виды кодирования данных;
охарактеризовать методы кодирования данных:
NRZ;
NRZI;
RZ;
AMI;
HDB3;
PE;
подвести итоги выполнения работы.

Объектом исследования является кодирование данных, а предметом – методы кодирования данных.

Глава 1. Кодирование информации. История, понятие и виды

1.1 История кодирования данных

Кодирование в самой своей примитивной форме появилось еще в давней древности, и ранее называлась тайнопись. Тайнопись использовали дабы засекретить важные послания от лиц, которым они не предназначались. Так, еще Геродот, живший и действующий в пятом веке до нашей эры, изучал письма, которые были понятны исключительно тому, кто был адресатом послания. Также исторически известно, что специализированный механический прибор был у спартанцев. Посредством данного прибора писались важнейшие письма и послания, которые, даже попав в не те руки, не могли быть прочитаны злоумышленниками. Также известно, что особенная тайная азбука была и у Юлия Цезаря. В эпоху Ренессанса и в средние века разработки секретных кодов продолжались, так свои тайные шифры были у Френсиса Бэкона, Леонардо да Винчи, Франсуа Виета, Джона Валлиса и др.^[1].

Тем не менее, данные языки отличались относительной примитивностью, и со временем начали изобретаться все более сложные и модифицированные шифры. Например, одним сложным шифром, используемым и сегодня, является криптографическая система Вюрцбурга Тритемиуса. Его хитроумная система кодирования применялась при папском дворе и при дворах европейских монархов.

Секретные шифры также есть неотъемлемая часть многих детективных произведений, в которых с различными целями действуют шпионы и детективы^[2].

Кодированием называют процесс преобразование сообщения в определенную последовательность сигналов, а декодированием – обратную кодированию операцию^[3].

Необходимо также отметить, что разные символы следует кодировать разными кодовыми словами, иначе дешифровка была бы невозможна.

Научно первый код, который был предназначен именно для передачи засекреченных сообщений, связывают с известным изобретателем телеграфного аппарата – Сэмьюэлем Морзе. Очевидно, речь идет о всемирно известном и до сих пор применяющемся коде под названием Азбука Морзе.

В этом коде каждой букве или цифре сопоставляется своя последовательность из кратковременных (называемых точками) и длительных (тире) импульсов тока, разделяемых паузами. Другой код, столь же широко распространенный в телеграфии (код Бодо), использует для кодирования два элементарных сигнала – импульс и паузу, при этом сопоставляемые буквам кодовые слова состоят из пяти таких сигналов.

Коды, использующие два различных элементарных сигнала, называются двоичными. Удобно бывает, отвлекаясь от их физической природы, обозначать эти два сигнала символами 0 и 1. Тогда кодовые слова можно представлять как последовательности из нулей и единиц^[4].

1.2 Понятие и виды кодирования данных

Код – система условных обозначений или сигналов.

Длина кода – количество знаков, используемых для представления кодируемой информации

Кодирование данных – это процесс формирования определенного представления информации.

Декодирование – расшифровка кодированных знаков, преобразование кода символа в его изображение

Двоичное кодирование – кодирование информации в виде 0 и 1^[5].

В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

Любой способ кодирования характеризуется наличием основы (алфавит, система координат, основание системы счисления и т.д.) и правил конструирования информационных образов на этой основе. Кодирование числовых данных осуществляется с помощью системы счисления.

Двоичное кодирование

Представление информации в двоичной системе использовалось человеком с давних времен. Так, жители островов Полинезии передавали необходимую информацию при помощи барабанов: чередование звонких и глухих ударов. Звук над поверхностью воды распространялся на достаточно большое расстояние, таким образом «работал» полинезийский телеграф. В телеграфе в XIX–XX веках информация передавалась с помощью азбуки Морзе – в виде последовательности из точек и тире.

Самюэл Морзе в 1838 г. изобрел код – телеграфную азбуку – систему кодировки символов короткими и длинными посылками для передачи их по линиям связи, известную как «код Морзе» или «морзянка». Современный вариант международного «кода Морзе» (International Morse) появился совсем недавно – в 1939 году, когда была проведена последняя корректировка^[6].

Своя система существует и в вычислительной технике – она называется двоичным кодированием и основана на представлении данных последовательностью всего двух знаков: 0 и 1. Эти знаки называются двоичными цифрами. Одним битом могут быть выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или ложь и т.п.).

Кодирование чисел

Вопрос о кодировании чисел возникает по той причине, что в машину нельзя либо нерационально вводить числа в том виде, в котором они изображаются человеком на бумаге. Во–первых, нужно кодировать знак числа. Во–вторых, по различным причинам, которые будут рассмотрены ниже, приходится иногда кодировать и остальную часть числа.

Кодирование целых чисел производиться через их представление в двоичной системе счисления: именно в этом виде они и помещаются в ячейке. Один бит отводиться при этом для представления знака числа (нулем кодируется знак «плюс», единицей – «минус»).

Для кодирования действительных чисел существует специальный формат чисел с плавающей запятой. Число при этом представляется в виде: N = M * qp, где M – мантисса, p – порядок числа N, q – основание системы счисления. Если при этом мантисса M удовлетворяет условию 0,1 <= | M | <= 1 то число N называют нормализованным^[7].

Кодирование текста

Для кодирования букв и других символов, используемых в печатных документах, необходимо закрепить за каждым символом числовой номер – код. В англоязычных странах используются 26 прописных и 26 строчных букв (A … Z, a … z), 9 знаков препинания (. , : ! « ; ? ( ) ), пробел, 10 цифр, 5 знаков арифметических действий (+,–,*, /, ^) и специальные символы (№, %, _, #, $, &, >, <, |, \) – всего чуть больше 100 символов. Таким образом, для кодирования этих символов можно ограничиться максимальным 7–разрядным двоичным числом (от 0 до 1111111, в десятичной системе счисления – от 0 до 127).

Кодирование графической информации

В видеопамяти находится двоичная информация об изображении, выводимом на экран. Почти все создаваемые, обрабатываемые или просматриваемые с помощью компьютера изображения можно разделить на две большие части – растровую и векторную графику.

Растровые изображения представляют собой однослойную сетку точек, называемых пикселами (pixel, от англ. picture element). Код пиксела содержит информации о его цвете.

В противоположность растровой графике векторное изображение многослойно. Каждый элемент векторного изображения – линия. Каждый элемент векторного изображения является объектом, который описывается с помощью математических уравнений. Сложные объекты (ломаные линии, различные геометрические фигуры) представляются в виде совокупности элементарных графических объектов^[8].

Кодирование звука

На компьютере работать со звуковыми файлами начали в 90–х годах. В основе цифрового кодирования звука лежит – процесс преобразования колебаний воздуха в колебания электрического тока и последующая дискретизация аналогового электрического сигнала. Кодирование и воспроизведение звуковой информации осуществляется с помощью специальных программ (редактор звукозаписи).

Временная дискретизация – способ преобразования звука в цифровую форму путем разбивания звуковой волны на отдельные маленькие временные участки где амплитуды этих участков квантуются (им присваивается определенное значение).

Это производится с помощью аналого–цифрового преобразователя, размещенного на звуковой плате. Таким образом, непрерывная зависимость амплитуды сигнала от времени заменяется дискретной последовательностью уровней громкости. Современные 16–битные звуковые карты кодируют 65536 различных уровней громкости или 16–битную глубину звука (каждому значению амплитуды звука сигнала присваивается 16–битный код)

Качество кодирования звука зависит от:

глубины кодирования звука – количество уровней звука
частоты дискретизации – количество изменений уровня сигнала в единицу^[9].

Глава 2. Методы кодирования данных

2.1 NRZ – Non Return to Zero (без возврата к нулю) и NRZ I – Non Return to Zero Invertive (инверсное кодирование без возврата к нулю)

Код NRZ (Non Return to Zero – без возврата к нулю) – это простейший код, представляющий собой обычный цифровой сигнал. Логическому нулю соответствует высокий уровень напряжения в кабеле, логической единице – низкий уровень напряжения (или наоборот, что не принципиально). Уровни могут быть разной полярности или же одной полярности. В течение битового интервала, то есть времени передачи одного бита никаких изменений уровня сигнала в кабеле не происходит^[10].

К несомненным достоинствам кода NRZ относятся его довольно простая реализация (исходный сигнал не надо ни специально кодировать на передающем конце, ни декодировать на приемном конце), а также минимальная среди других кодов пропускная способность линии связи, требуемая при данной скорости передачи. Ведь наиболее частое изменение сигнала в сети будет при непрерывном чередовании единиц и нулей, то есть при последовательности 1010101010..., поэтому при скорости передачи, равной 10 Мбит/с (длительность одного бита равна 100 нс) частота изменения сигнала и соответственно требуемая пропускная способность линии составит 1 / 200нс = 5 МГц (рис. 1).

Рисунок 1 Скорость передачи и требуемая пропускная способность при коде NRZ