Файл: Методы кодирования данных (1. Форматы данных и представление информации в компьютере).pdf

Актуальность темы в том, что вычислительная техника первоначально возникла как средство автоматизации вычислений. Следующим видом обрабатываемой информации стала текстовая. Сначала тексты просто поясняли труднообозримые столбики цифр, но затем машины все более существенным образом стали преобразовывать текстовую информацию. Оформление текстов достаточно быстро вызвали у людей стремление дополнить их графиками и рисунками. Делались попытки частично решить эти проблемы в рамках символьного подхода: вводились специальные символы для рисования таблиц и диаграммам. Но практические потребности людей в графике делали ее появление среди видов компьютерной информации неизбежной. Числа, тексты и графика образовали некоторый относительно замкнутый набор, которого было достаточно для многих решаемых на компьютере задачи. Постоянный рост быстродействия вычислительной техники создал широкие технические возможности для обработки звуковой информации, а также для быстро сменяющихся изображений. Все это обусловило и развитие способов представления и кодирования различных видов информации в компьютере.

Объектом изучения, представленным в теоретической части являются данные в компьютере.

Цель работы – рассмотреть форматы данных и методы кодирования данных в вычислительной технике.

Для достижения цели необходимо решить следующие задачи:

рассмотреть существующие форматы данных;
рассмотреть представление различных форматов данных в вычислительной технике и описать способы кодирования информации.

1. Форматы данных и представление информации в компьютере

1.1 Форматы данных

Информация – это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состояниях, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний[1].

В процессе обработки информация может менять структуру и форму. Признаком структуры являются элементы информации и их взаимосвязь. Формы представления информации могут быть различны. Основными из них являются: символьная; текстовая; графическая; световых или звуковых сигналов; радиоволн; электрических и нервных импульсов; магнитных записей; жестов и мимики; запахов и вкусовых ощущений и так далее.

В повседневной практике такие понятия, как информация и данные, часто рассматриваются как синонимы. На самом деле между ними имеются существенные различия.

Данными называется информация, представленная в удобном для обработки виде. Данные могут быть представлены в виде текста, графики, аудиовизуального ряда. Представление данных называется языком, представляющим собой совокупность символов, соглашений и правил, используемых для общения, отображения, передачи информации в электронном виде.

Среди форматов данных стоит выделить несколько категорий, которые будут рассматриваться далее.

Цифровые аудиоформаты

Цифровой аудиоформат — формат представления звуковых данных, используемый при цифровой звукозаписи, а также для дальнейшего хранения записанного материала на компьютере и других электронных носителях информации, так называемых звуковых носителях[2].

По существу, звуковой формат включает в себя несколько понятий, в связи с чем выделяют и различные определения аудиоформата.

Формат представления звуковых данных в цифровом виде зависит от способа квантования аналогово-цифровым преобразователем (АЦП). В звукотехнике в настоящее время наиболее распространены два вида квантования:

импульсно-кодовая модуляция;
сигма-дельта-модуляция.

Зачастую разрядность квантования и частоту дискретизации указывают для различных звуковых устройств записи и воспроизведения как формат представления цифрового звука (24 бита/192 кГц; 16 бит/48 кГц).

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Для устранения избыточности аудиоданных используются аудиокодеки, при помощи которых производится сжатие аудиоданных.

1.2 Текстовые данные

Совокупность символов, которые применяются для визуального представления текстовых данных, называют алфавитом[3]. Одним из ключевых свойств алфавита является его мощность, т.е. количество знаков в алфавите. Для представления текстовых данных используются различные кодировки, которые отличаются кодами символов и их набором.

Чтобы представить символ текста, могут использоваться алфавиты, мощность которых составляет 256 знаков. Каждый знак содержит 8 бит информации, сами символы имеют порядковые номера и содержат восьмиразрядный код в двоичной системе счисления – начиная с 00000000 и заканчивая 11111111. Сейчас 256 символов для специфического алфавита является весьма ограниченным набором, поэтому в определенный момент времени возникла идея увеличить количество бит для хранения символа в два раза, тем самым предоставив возможность хранить чуть более чем 65 тысяч символов. Хорошим примером такой кодировки является Unicode.

Международным стандартам соответствуют кодировки ASCII и Unicode.

1.3 Графические данные

Графический формат — это способ записи графической информации. Графические форматы файлов предназначены для хранения изображений, таких как фотографии и рисунки[4].

Графические форматы делятся на векторные и растровые. Большинство графических форматов реализуют сжатие данных (одни — с потерями, другие — без).

Различные графические форматы предоставляют разнообразные возможности: некоторые предназначены для хранения высококачественных изображений, другие используются исключительно для графической информации малого размера, третьи – поддерживают прозрачность и могут быть растянуты или уменьшены без потери качества, тем самым находя применение в той или иной области. Но для всех графических форматов основным моментом является то, каким образом производится определение цвета в каждой точке изображения.

Для представления цветов в изображениях используются различные методы и кодировки: на основе сочетания трёх или четырёх базовых цветов и их процентного соотношения, на основе шестнадцатеричных кодов и другие. К основным кодировкам стоит отнести HEX, RGB, CMYK.

2. Кодирование информации

2.1 Кодирование текстовых данных ASCII

ASCII (American standard code for information interchange) — одна из наиболее распространенных и самая поддерживаемая из существующих на данный момент кодировка для представления распространенных символов, разработанная в Соединенных Штатах Америки в 1963 году[4]. В данной таблице кодировки приводятся однобайтные коды для следующих групп символов:

арабские цифры;
латинский алфавит (верхний и нижний регистры);
знаки пунктуации;
управляющие знаки;
дополнительные буквы национальных алфавитов.

Первоначально данная кодировка была разработана на 128 символов, т.е. на 7 бит, а старший бит служил инструментом для контроля ошибок. Позже кодировку расширили в два раза, позволив использовать старший бит для представления символов.

В ASCII коды цифр начинаются с 0011 в двоичной системе, а заканчиваются самим значением представляемого числа в данной системе счисления. К примеру, 0101 – двоичный код числа 5, а 01110101 – код символа «5» в таблице ASCII. Таким образом, каждое число в двоичной системе счисления можно превратить в строку ASCII путем добавления к каждому из них префикса 0011.

ASCII позволяет печатать один символ над другим (для ударений и диакритических знаков) – для этого используется символ Backspace. К примеру, есть возможность вывести на печать следующие символы:

Жирные символы получаются путём двойного набора одного и того же символа на одной позиции, для того чтобы напечатать подчеркнутый символ на одной позиции набирается символ подчёркивания и другой символ, который требуется подчеркнуть.

Данная кодировка также позволяет размещать в таблице символы национальных алфавитов: для этого заменяются символы собаки, слэшей, квадратных и фигурных скобок и некоторые другие. Вместо символа «#» можно разместить символ фунта «£», вместо доллара – знак «¤».

Это удобно в случае с языками европейской группы, т.к. их основой является латинский алфавит, а различие заключается в использовании нескольких дополнительных букв.

Однако для языков с кириллической письменностью и «вязей» - арабского, грузинского и других подобных, существуют свои модификации кодировки:

вместо строчных английских символов размещаются национальные символы (русские и греческие прописные);
используется переключение при помощи специальных управляющих символов “SO”/”SI”, тогда представляется возможной полная замена латинских символов на национальные.

Чуть позже был сделан вывод о том, что удобнее всего будет использовать первую половину таблицы в первозданном виде и постоянно хранить там символы латинской кодировки, а вторую половину таблицы отдавать для размещения национальных символов и различных дополнительных литералов.

Однако наблюдалось отсутствие единой методологии размещения в таблице кодировки кириллических символов, что порождало конфликты между кодировками Windows-1251 и КОИ-8. Это делало работу с текстом проблематичной и вынуждало заранее оговаривать используемую кодировку. Первые 128 символов кодировки ASCII приведены на рисунке 1.

Рисунок 1 – таблица кодировки ASCII, символы 0-127.

Изначально таблица ASCII была предназначена для обмена сообщениями по телетайпу. Для этого в таблице кодировки были размещены специальные управляющие символы, которые применяются при передаче информации по телетайпу и являются непечатаемыми. Сообщения передавались разделенными на заголовок с технической информацией, содержащий адреса получателя и отправителя, контрольную сумму и другую сервисную информацию. Он размещался до или после текстового блока. Управляющие последовательности кодировки ASCII приведены в таблице 1.

Таблица 1 – управляющие последовательности в ASCII.

Символ	Код	Описание
SOH	01	Начало заголовка сервисной информации
STX	02	Начало текстового блока
ETX	03	Конец текстового блока
EOT	04	Завершение трансляции сообщения
ENQ	05	Запрос подтверждения
ACK	06	Подтверждение
BEL	07	Звуковой сигнал
BS	08	Возврат каретки на один символ
TAB	09	Табуляция горизонтальная
LF	0A	Перевод каретки на следующую строку
VT	0B	Табуляция вертикальная
FF	0C	Команда продолжения печати с нового листа
CR	0D	Возврат каретки на начало печатаемой строки
SO	0E	Переключение на другую ленту или национальную кодировку
SI	0F	Переключиться на ленту по умолчанию или стандартную (общую) кодировку
DLE	10	Экранирование данных, т.е. символы после этой команды считаются данными (не управляющими символами)
DC1	11	Включение прибора для чтения ленты
DC2	12	Включение перфоратора
DC3	13	Выключение прибора для чтения перфоленты
DC4	14	Выключение перфоратора
NAK	15	Обратная команда для команды подтверждения АСК
SYN	16	Команда для синхронизации
ETB	17	Конец отдельного блока текста
CAN	18	Отмена переданной информации
EM	19	Конец ленты или бумаги
SUB	1A	Символ подстановки (вместо утерянного или испорченного при передаче, для печати символа другим цветом и др.). В данный момент используется в ОС Windows для определения конца файла.
ESC	1B	Символ, расположенный после этого знака, интерпретируется не так, как в кодировке ASCII
DEL	7F	Команда удаления последнего символа