Файл: Методы кодирования данных (Теоретические аспекты кодирования информации).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 04.04.2023

Просмотров: 74

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Использование кодов ТЭСИ требует обеспечения высокой степени достоверности кодированной информации. В классификаторах ТЭСИ для выявления ошибок в кодах используется метод контрольных чисел.

Контроль правильности написания кодов при обработке информации основан на принципе делимости чисел. В противном случае это называется управлением по модулю. Суть метода в том, что к коду добавляется еще одна галочка - контрольное число, которое связано с кодом определенной математической зависимостью. . [12; п. 108]. При вводе закодированной информации в базу данных, ее обработке или использовании в компьютере специальная управляющая программа проверяет эту зависимость для каждого кода. Если зависимость нарушена, машина выводит информацию о наличии ошибки в коде. . [10; с. 512]

Управление модулем широко используется в классификаторах ТЕС как в нашей стране, так и за рубежом. В качестве модуля используются различные числа, но наиболее распространенным в настоящее время является контроль по модулю 11. Для общероссийских классификаторов расчет контрольных чисел осуществляется в соответствии с методикой, разработанной ВНИИКИ. «В соответствии с этой методикой проверка число - это остаток от деления суммы произведений весов на значения цифр кода на 11. Вес (весовой коэффициент) - порядковый номер цифры в коде слева направо. [10;с.512]

Формула, по которой вычисляется контрольное число, имеет следующий вид:

КЧ=? aixi-11

где КЧ - контрольное число по модулю 11,

ai - вес i-го разряда кода,

xi - значение I -го разряда кода,

? aixi - модуль 11, т.е целая часть суммы произведений значений разрядов кода на их веса. [10;с.512]

Методика ВНИИКИ предлагает использовать в качестве весов натуральный ряд чисел от 1 до 10. Если разрядность кода больше 10, то набор весов повторяется. При использовании данного метода остаток может получить значение от 0 до 10. Так как методика предусматривает использование одноразрядных контрольных чисел, то при получении остатка, равного 10, следует сделать повторный расчет контрольного числа со сдвигом строки весов. В этом случае весовой ряд начинается с 3 до 10, а если разрядность кода больше, то дальше веса идут с 1 до 10. В случае повторного получения контрольного числа, равного 10, в качестве контрольного числа используется 0. В случае, если сумма произведений весов на значения разрядов получается меньше 10, то эта сумма и является контрольным числом. [6;с.395]

Использование контрольных чисел обеспечивает возможность обнаруживать и исправлять ошибки в кодированной документной информации, что повышает ее достоверность.


1.3 Кодирование текстовой информации

Если каждому символу алфавита сопоставить определенное целое число (например, порядковый номер), то с помощью двоичного кода можно кодировать и текстовую информацию. Для хранения двоичного кода одного символа выделен 1 байт = 8 бит.

Учитывая, что каждый бит принимает значение 0 или 1, количество их возможных сочетаний в байте равно. Значит, с помощью 1 байта можно получить 256 разных двоичных кодовых комбинаций и отобразить с их помощью 256 различных символов. [7;с.218]

Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т.д.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. [7;с.218]

Таким образом, человек различает символы по их начертанию, а компьютер - по их коду. Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице.

В системе ASCII закреплены две таблицы кодирования - базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

Первые 33 кода (с 0 до 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания. Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы [20].

С распространением современных информационных технологий в мире возникла необходимость кодировать символы алфавитов других языков: японского, корейского, арабского, хинди, а также других специальных символов. На смену старой системе пришла новая универсальная – UNICODE, в которой один символ кодируется не одним, а двумя байтами. [7;с.218]

В настоящее время существует много различных кодовых таблиц (DOS, ISO, WINDOWS, KOI8-R, KOI8-U, UNICODE и др.), поэтому тексты, созданные в одной кодировке, могут не правильно отображаться в другой.

1.4 Кодирование числовой информации


Числовую информацию компьютер обрабатывает в двоичной системе счисления. Таким образом, числа в компьютере представлены последовательностью цифр 0 и 1, называемых битами (бит – один разряд двоичного числа). В начале 1980-х гг. процессоры для персональных компьютеров были 8-разрядными, и за один такт работы процессора компьютер мог обработать 8 бит, т.е. максимально обрабатываемое десятичное число не могло превышать 111111112 (или 25510). Последовательность из восьми бит называют байтом, т.е. 1 байт = 8 бит. [14]

Затем разрядность процессоров росла, появились 16-, 32- и, наконец, 64-разрядные процессоры для персональных компьютеров, соответственно возросла и величина максимального числа, обрабатываемого за один такт.

Использование двоичной системы для кодирования целых и действительных чисел позволяет с помощью 8 разрядов кодировать целые числа от 0 до 255, 16 бит дает возможность закодировать более 65 тыс. значений. [16]

В ЭВМ применяются две формы представления чисел:

• естественная форма, или форма с фиксированной запятой. В этой форме числа изображаются в виде последовательности цифр с постоянным для всех чисел положением запятой, отделяющей целую часть от дробной, например +00456,77800; +00000,00796; -0786,34287. Эта форма неудобна для вычислений и применяется только как вспомогательная для целых чисел; [15]

• нормальная форма, или форма с плавающей точкой. В этой форме число выражается с помощью мантиссы и порядка как N = ±Μ • Р±r, где Μ – мантисса числа (|M| < 1), r – порядок числа (целое число), Р – основание системы счисления. Приведенные выше числа в нормальной форме будут представлены как +0,456788 • 103, +0,786 • 102, -0,3078634287 • 105.

Нормальная форма представления обеспечивает большой диапазон отображения чисел и является основной в современных ЭВМ. Все числа с плавающей запятой хранятся в ЭВМ в нормализованном виде. Нормализованным называют такое число, старший разряд мантиссы которого больше нуля. [3;с.120]

В памяти ЭВМ для хранения чисел предусмотрены форматы: слово – длиной 4 байта, полуслово – 2 байта, двойное слово – 8 байт.

Разрядная сетка для чисел с плавающей запятой имеет следующую структуру: • нулевой разряд – это знак числа;

• с 1-го по 7-й разряд – записывается порядок в двоичном коде;

• с 8-го по 31-й – указывается мантисса. . [3;с.120]

1.5 Кодирование графической информации

Графическая информация на экране монитора представляется в виде растрового изображения, которое формируется из определенного количества строк, которые, в свою очередь, содержат определенное количество точек. . [9;с.256]


Давайте посмотрим на экран компьютера через увеличительное стекло. В зависимости от марки и модели техники мы увидим либо множество разноцветных прямоугольничков, либо множество разноцветных кружочков.

И те, и другие группируются по три штуки, причем одного цвета, но разных оттенков. Они называются пикселями [1] (от английского PICture's ELement).

Пиксели бывают только трех цветов - зеленого, синего и красного. Другие цвета образовываются при помощи смешения цветов. Рассмотрим самый простой случай - каждый кусочек пикселя может либо гореть (1), либо не гореть (0). Тогда мы получаем следующий набор цветов: Из трех цветов можно получить восемь комбинаций. [ 9;с.256]

Для получения богатой палитры цветов базовым цветам могут быть заданы различные интенсивности, тогда количество различных вариантов их сочетаний, дающих разные краски и оттенки, увеличивается. . [ 9;с.256]

Шестнадцатицветная палитра получается при использовании 4-разрядной кодировки пикселя: к трем битам базовых цветов добавляется один бит интенсивности. Этот бит управляет яркостью всех трех цветов одновременно. Число цветов, воспроизводимых на экране монитора (N), и число бит, отводимых в видеопамяти на каждый пиксель (I), связаны формулой:

Величину I называют битовой глубиной или глубиной цвета. Чем больше битов используется, тем больше оттенков цветов можно получить. . [1]

Таким образом, любое графическое изображение на экране можно закодировать с помощью чисел, сообщающих, сколько частей каждого пикселя является красным, сколько зеленым и сколько синим. Графическая информация также может быть представлена в виде векторного изображения.

Векторное изображение - это графический объект, состоящий из элементарных отрезков и дуг. Положение этих элементарных объектов определяется координатами точек и длиной радиуса. Для каждой линии укажите ее тип (сплошная, пунктирная, пунктирная), толщину и цвет. . [1]

Информация о векторном изображении кодируется как обычная буквенно-цифровая и обрабатывается специальными программами. Качество изображения определяется разрешением монитора, то есть количеством точек, из которых оно составлено. Чем выше разрешение, т. Е. Чем больше количество линий и точек растра в строке, тем выше качество изображения. [1]

1.6 Кодирование звуковой информации

Из физики известно, что звук – это колебания воздуха. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), то видно плавно изменяющееся с течением времени напряжение. Для компьютерной обработки такой – аналоговый – сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел. Делается это, например, так – измеряется напряжение через равные промежутки времени и полученные значения записываются в память компьютера. Этот процесс называется дискретизацией (или оцифровкой), а устройство, выполняющее его – аналого-цифровым преобразователем (АЦП). . [10;с.512]


Чтобы воспроизвести закодированный таким образом звук, нужно сделать обратное преобразование (для этого служит цифро-аналоговый преобразователь – ЦАП), а затем сгладить получившийся ступенчатый сигнал.

Чем выше частота дискретизации и чем больше разрядов отводится для каждого отсчета, тем точнее будет представлен звук, но при этом увеличивается и размер звукового файла. Поэтому в зависимости от характера звука, требований, предъявляемых к его качеству и объему занимаемой памяти, выбирают некоторые компромиссные значения. . [10;с.512]

Важными параметрами дискретизации являются частота и разрядность.

Разрядность указывает, с какой точностью происходят изменения амплитуды аналогового сигнала. Точность, с которой при оцифровке передается значение амплитуды сигнала в каждый из моментов времени, определяет качество сигнала после цифро-аналогового преобразования. Именно от разрядности зависит достоверность восстановления формы волны.

Для кодирования значения амплитуды используют принцип двоичного кодирования. Звуковой сигнал должен быть представленным в виде последовательности электрических импульсов (двоичных нулей и единиц). Обычно используют 8, 16-битное или 20-битное представление значений амплитуды. При двоичном кодировании непрерывного звукового сигнала его заменяют последовательностью дискретных уровней сигнала. . [10;с.512]

Частота - количество измерений амплитуды аналогового сигнала в секунду.

В новом формате компакт-дисков Audio DVD за одну секунду сигнал измеряется 96 000 раз, т.е. применяют частоту дискретизации 96 кГц. Для экономии места на жестком диске в мультимедийных приложениях довольно часто применяют меньшие частоты: 11, 22, 32 кГц. Это приводит к уменьшению слышимого диапазона частот, а, значит, происходит сильное искажение того, что слышно. . [10;с.512]

От частоты дискретизации (количества измерений уровня сигнала в единицу времени) зависит качество кодирования. С увеличением частоты дискретизации увеличивается точность двоичного представления информации. При частоте 8 кГц (количество измерений в секунду 8000) качество оцифрованного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц (количество измерений в секунду 48000) - качеству звучания аудио- CD. [16]

В современных преобразователях принято использовать 20-битное кодирование сигнала, что позволяет получать высококачественную оцифровку звука.

Вспомним формулу К = 2a . Здесь К - количество всевозможных звуков (количество различных уровней сигнала или состояний), которые можно получить при помощи кодирования звука а битами