Файл: Методы кодирования данных (Теоретические аспекты кодирования информации).pdf
Добавлен: 04.04.2023
Просмотров: 73
Скачиваний: 2
СОДЕРЖАНИЕ
1. Теоретические аспекты кодирования информации
1.1 История возникновения и использования кодирования информации
1.2 Основные понятия кодирования данных, классификация кодов
1.3 Кодирование текстовой информации
1.4 Кодирование числовой информации
1.5 Кодирование графической информации
Использование кодов ТЭСИ требует обеспечения высокой степени достоверности кодированной информации. В классификаторах ТЭСИ для выявления ошибок в кодах используется метод контрольных чисел.
Контроль правильности написания кодов при обработке информации основан на принципе делимости чисел. В противном случае это называется управлением по модулю. Суть метода в том, что к коду добавляется еще одна галочка - контрольное число, которое связано с кодом определенной математической зависимостью. . [12; п. 108]. При вводе закодированной информации в базу данных, ее обработке или использовании в компьютере специальная управляющая программа проверяет эту зависимость для каждого кода. Если зависимость нарушена, машина выводит информацию о наличии ошибки в коде. . [10; с. 512]
Управление модулем широко используется в классификаторах ТЕС как в нашей стране, так и за рубежом. В качестве модуля используются различные числа, но наиболее распространенным в настоящее время является контроль по модулю 11. Для общероссийских классификаторов расчет контрольных чисел осуществляется в соответствии с методикой, разработанной ВНИИКИ. «В соответствии с этой методикой проверка число - это остаток от деления суммы произведений весов на значения цифр кода на 11. Вес (весовой коэффициент) - порядковый номер цифры в коде слева направо. [10;с.512]
Формула, по которой вычисляется контрольное число, имеет следующий вид:
КЧ=? aixi-11
где КЧ - контрольное число по модулю 11,
ai - вес i-го разряда кода,
xi - значение I -го разряда кода,
? aixi - модуль 11, т.е целая часть суммы произведений значений разрядов кода на их веса. [10;с.512]
Методика ВНИИКИ предлагает использовать в качестве весов натуральный ряд чисел от 1 до 10. Если разрядность кода больше 10, то набор весов повторяется. При использовании данного метода остаток может получить значение от 0 до 10. Так как методика предусматривает использование одноразрядных контрольных чисел, то при получении остатка, равного 10, следует сделать повторный расчет контрольного числа со сдвигом строки весов. В этом случае весовой ряд начинается с 3 до 10, а если разрядность кода больше, то дальше веса идут с 1 до 10. В случае повторного получения контрольного числа, равного 10, в качестве контрольного числа используется 0. В случае, если сумма произведений весов на значения разрядов получается меньше 10, то эта сумма и является контрольным числом. [6;с.395]
Использование контрольных чисел обеспечивает возможность обнаруживать и исправлять ошибки в кодированной документной информации, что повышает ее достоверность.
1.3 Кодирование текстовой информации
Если каждому символу алфавита сопоставить определенное целое число (например, порядковый номер), то с помощью двоичного кода можно кодировать и текстовую информацию. Для хранения двоичного кода одного символа выделен 1 байт = 8 бит.
Учитывая, что каждый бит принимает значение 0 или 1, количество их возможных сочетаний в байте равно. Значит, с помощью 1 байта можно получить 256 разных двоичных кодовых комбинаций и отобразить с их помощью 256 различных символов. [7;с.218]
Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т.д.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. [7;с.218]
Таким образом, человек различает символы по их начертанию, а компьютер - по их коду. Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице.
В системе ASCII закреплены две таблицы кодирования - базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.
Первые 33 кода (с 0 до 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.).
Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания. Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы [20].
С распространением современных информационных технологий в мире возникла необходимость кодировать символы алфавитов других языков: японского, корейского, арабского, хинди, а также других специальных символов. На смену старой системе пришла новая универсальная – UNICODE, в которой один символ кодируется не одним, а двумя байтами. [7;с.218]
В настоящее время существует много различных кодовых таблиц (DOS, ISO, WINDOWS, KOI8-R, KOI8-U, UNICODE и др.), поэтому тексты, созданные в одной кодировке, могут не правильно отображаться в другой.
1.4 Кодирование числовой информации
Числовую информацию компьютер обрабатывает в двоичной системе счисления. Таким образом, числа в компьютере представлены последовательностью цифр 0 и 1, называемых битами (бит – один разряд двоичного числа). В начале 1980-х гг. процессоры для персональных компьютеров были 8-разрядными, и за один такт работы процессора компьютер мог обработать 8 бит, т.е. максимально обрабатываемое десятичное число не могло превышать 111111112 (или 25510). Последовательность из восьми бит называют байтом, т.е. 1 байт = 8 бит. [14]
Затем разрядность процессоров росла, появились 16-, 32- и, наконец, 64-разрядные процессоры для персональных компьютеров, соответственно возросла и величина максимального числа, обрабатываемого за один такт.
Использование двоичной системы для кодирования целых и действительных чисел позволяет с помощью 8 разрядов кодировать целые числа от 0 до 255, 16 бит дает возможность закодировать более 65 тыс. значений. [16]
В ЭВМ применяются две формы представления чисел:
• естественная форма, или форма с фиксированной запятой. В этой форме числа изображаются в виде последовательности цифр с постоянным для всех чисел положением запятой, отделяющей целую часть от дробной, например +00456,77800; +00000,00796; -0786,34287. Эта форма неудобна для вычислений и применяется только как вспомогательная для целых чисел; [15]
• нормальная форма, или форма с плавающей точкой. В этой форме число выражается с помощью мантиссы и порядка как N = ±Μ • Р±r, где Μ – мантисса числа (|M| < 1), r – порядок числа (целое число), Р – основание системы счисления. Приведенные выше числа в нормальной форме будут представлены как +0,456788 • 103, +0,786 • 102, -0,3078634287 • 105.
Нормальная форма представления обеспечивает большой диапазон отображения чисел и является основной в современных ЭВМ. Все числа с плавающей запятой хранятся в ЭВМ в нормализованном виде. Нормализованным называют такое число, старший разряд мантиссы которого больше нуля. [3;с.120]
В памяти ЭВМ для хранения чисел предусмотрены форматы: слово – длиной 4 байта, полуслово – 2 байта, двойное слово – 8 байт.
Разрядная сетка для чисел с плавающей запятой имеет следующую структуру: • нулевой разряд – это знак числа;
• с 1-го по 7-й разряд – записывается порядок в двоичном коде;
• с 8-го по 31-й – указывается мантисса. . [3;с.120]
1.5 Кодирование графической информации
Графическая информация на экране монитора представляется в виде растрового изображения, которое формируется из определенного количества строк, которые, в свою очередь, содержат определенное количество точек. . [9;с.256]
Давайте посмотрим на экран компьютера через увеличительное стекло. В зависимости от марки и модели техники мы увидим либо множество разноцветных прямоугольничков, либо множество разноцветных кружочков.
И те, и другие группируются по три штуки, причем одного цвета, но разных оттенков. Они называются пикселями [1] (от английского PICture's ELement).
Пиксели бывают только трех цветов - зеленого, синего и красного. Другие цвета образовываются при помощи смешения цветов. Рассмотрим самый простой случай - каждый кусочек пикселя может либо гореть (1), либо не гореть (0). Тогда мы получаем следующий набор цветов: Из трех цветов можно получить восемь комбинаций. [ 9;с.256]
Для получения богатой палитры цветов базовым цветам могут быть заданы различные интенсивности, тогда количество различных вариантов их сочетаний, дающих разные краски и оттенки, увеличивается. . [ 9;с.256]
Шестнадцатицветная палитра получается при использовании 4-разрядной кодировки пикселя: к трем битам базовых цветов добавляется один бит интенсивности. Этот бит управляет яркостью всех трех цветов одновременно. Число цветов, воспроизводимых на экране монитора (N), и число бит, отводимых в видеопамяти на каждый пиксель (I), связаны формулой:
Величину I называют битовой глубиной или глубиной цвета. Чем больше битов используется, тем больше оттенков цветов можно получить. . [1]
Таким образом, любое графическое изображение на экране можно закодировать с помощью чисел, сообщающих, сколько частей каждого пикселя является красным, сколько зеленым и сколько синим. Графическая информация также может быть представлена в виде векторного изображения.
Векторное изображение - это графический объект, состоящий из элементарных отрезков и дуг. Положение этих элементарных объектов определяется координатами точек и длиной радиуса. Для каждой линии укажите ее тип (сплошная, пунктирная, пунктирная), толщину и цвет. . [1]
Информация о векторном изображении кодируется как обычная буквенно-цифровая и обрабатывается специальными программами. Качество изображения определяется разрешением монитора, то есть количеством точек, из которых оно составлено. Чем выше разрешение, т. Е. Чем больше количество линий и точек растра в строке, тем выше качество изображения. [1]
1.6 Кодирование звуковой информации
Из физики известно, что звук – это колебания воздуха. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), то видно плавно изменяющееся с течением времени напряжение. Для компьютерной обработки такой – аналоговый – сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел. Делается это, например, так – измеряется напряжение через равные промежутки времени и полученные значения записываются в память компьютера. Этот процесс называется дискретизацией (или оцифровкой), а устройство, выполняющее его – аналого-цифровым преобразователем (АЦП). . [10;с.512]
Чтобы воспроизвести закодированный таким образом звук, нужно сделать обратное преобразование (для этого служит цифро-аналоговый преобразователь – ЦАП), а затем сгладить получившийся ступенчатый сигнал.
Чем выше частота дискретизации и чем больше разрядов отводится для каждого отсчета, тем точнее будет представлен звук, но при этом увеличивается и размер звукового файла. Поэтому в зависимости от характера звука, требований, предъявляемых к его качеству и объему занимаемой памяти, выбирают некоторые компромиссные значения. . [10;с.512]
Важными параметрами дискретизации являются частота и разрядность.
Разрядность указывает, с какой точностью происходят изменения амплитуды аналогового сигнала. Точность, с которой при оцифровке передается значение амплитуды сигнала в каждый из моментов времени, определяет качество сигнала после цифро-аналогового преобразования. Именно от разрядности зависит достоверность восстановления формы волны.
Для кодирования значения амплитуды используют принцип двоичного кодирования. Звуковой сигнал должен быть представленным в виде последовательности электрических импульсов (двоичных нулей и единиц). Обычно используют 8, 16-битное или 20-битное представление значений амплитуды. При двоичном кодировании непрерывного звукового сигнала его заменяют последовательностью дискретных уровней сигнала. . [10;с.512]
Частота - количество измерений амплитуды аналогового сигнала в секунду.
В новом формате компакт-дисков Audio DVD за одну секунду сигнал измеряется 96 000 раз, т.е. применяют частоту дискретизации 96 кГц. Для экономии места на жестком диске в мультимедийных приложениях довольно часто применяют меньшие частоты: 11, 22, 32 кГц. Это приводит к уменьшению слышимого диапазона частот, а, значит, происходит сильное искажение того, что слышно. . [10;с.512]
От частоты дискретизации (количества измерений уровня сигнала в единицу времени) зависит качество кодирования. С увеличением частоты дискретизации увеличивается точность двоичного представления информации. При частоте 8 кГц (количество измерений в секунду 8000) качество оцифрованного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц (количество измерений в секунду 48000) - качеству звучания аудио- CD. [16]
В современных преобразователях принято использовать 20-битное кодирование сигнала, что позволяет получать высококачественную оцифровку звука.
Вспомним формулу К = 2a . Здесь К - количество всевозможных звуков (количество различных уровней сигнала или состояний), которые можно получить при помощи кодирования звука а битами