Файл: Анализ методов кодирования данных (Основы теории кодирования данных).pdf

Под кодированием понимают процесс присвоения условных кодов признакам объектов. Процесс кодирования используется для представления данных в ПК при хранении, обработке и передаче информации. Вопросам кодирования, связанным хранением и передачей данных (представление в ПК, шифрование, сжатие и помехозащищённость), посвящены соответствующие главы теории информации.

Код строится на основании алфавита, что может состоять с букв, цифр и иных символов. Наибольшее распространение для обработки информации с использованием ЭВМ получили специальные цифровые коды. Код может характеризоваться длиной, структурой или степенью информативности.

Длина – это количество позиций в коде.

Структура – порядок расположения символов в кодах, используемых в обозначении классификационного признака.

Степени информативности – отношение числа закодированных признаков к длине кода.

К системам для кодирования также предъявляются и следующие такие требования:

– отображение необходимой информации по объектах;

– идентификация каждого из объектов кодируемого множества;

– достаточная их гибкость и резерв для кодовых обозначений при самой минимальной длине;

– ориентация на обработку информации в автоматическом режиме и возможность обнаружения ошибок.[6]

Все системы кодирования информации распределяют на 2 основных вида (рисунок 7):

– регистрационные системы кодирования, что не требуют предварительной классификации;

– классификационные системы кодирования, что ориентированные на выполнение предварительной классификации для объектов.

Рисунок 7 – Классификация систем кодирования

Особо надо выделить комбинированные системы для кодирования, представляющие собой совокупность нескольких различных систем для кодирования. Они используются также для кодирования больших объектов, которые можно сгруппировать по нескольким из подчинённых или независимых признаков. Комбинированные системы дают возможность получать более информативный код.

2.2. Порядковые методы кодирования

Порядковая система для кодирования была применена на самом начале зарождения кодирования информации и предварительной классификации объектов.

Она основана на самом простом методе. Суть его заключается в постепенной нумерации объектов с помощью натуральных чисел. Таким образом, каждый из объектов идентифицируется регистрационным номером. Объект при регистрации может располагаться случайно и в определённом порядке, к примеру, алфавитном (список студентов) или хронологическом (журнал для регистрации событий).[1]

Принцип порядкового кодирования показан на рисунке 8:

Рисунок 8 – Пример порядкового кодирования

Количество всех объектов номенклатуры N, что может быть закодировано при помощи порядковой системы, зависит также от количества символов, составляющих алфавит кода, длины кодового обозначения (количества знаков), что выражается такой формулой:

N=А^l (1)

Например, с применением алфавита из 10 цифр и 3-значного кода можно закодировать 10³объектов.[7]

Достоинствами порядковой системы считаются простота кодирования, минимальная длина кода. Такая долговечность порядкового кода всегда достигается практически за счёт незначительной ее избыточности, поскольку добавление только 1 разряда увеличивает ёмкость в А раз.

Недостатком для порядковой системы кодирования считается отсутствие в коде данных о свойствах объектов.

2.3. Серийно-порядковое кодирование

Следующий этап развития, что используется кодировании отобразился в серийно-порядковой системе.

Данный метод отличается от обычного порядкового кодирования только тем, что объекты разбиваются предварительно на подмножества, а другие порядковые номера – на некоторые серии. Элементы для каждого подмножества в пределах отведённой серии регистрируются. В каждой серии предусматриваются обычно и резервные номера.

По своей сути такая система является смешанной, а именно классифицирующей и идентифицирующей. Часто применяется и в тех случаях, при которых деление на подмножества может осуществляться только по одному из классификационных признаков, а их количество будет малым (рисунок 9).

Рисунок 9 – Примет метода кодирования

Например, для нумерации аудиторий ВУЗа, размещённого в 4-х небольших близкорасположенных зданиях, есть по 20 используемых помещений для занятий, можно использовать 4 серии по 25 номеров (25–49; 00–24; 50–74; 75–99).

Также в каждой из серий остаётся резерв из 5 номеров (на случай ее перепланировки), а длина такого кода аудитории остаётся все же прежней – двузначной.[11]

Иной пример: использование «нечётных» серии для нумерации адресов домов, расположенных с левой, а «чётной» – с правой стороны улицы.

Серийно-порядковой системе также присущи в основном все те же достоинства или недостатки, что и обычному порядковому кодированию. Но тут коды, помимо идентификации объектов, несут некоторую дополнительную хранимую информацию, хотя восприятие её человеком может являться затруднено.

Резервирование является достоинством, что обеспечивает некоторую долговечность кода, а серийно-порядковая система будет непригодной из-за переполнения одной серии, при этом все резервы других серий не будут ещё исчерпаны.

2.4. Последовательное кодирование

Последовательное кодирование, аналогично параллельному, требует проведения предварительного процесса классификации кодируемых объектов.

Такие классификационные системы кодирования часто называются также позиционными, ведь для выражения каждого из классификационных признаков в структуре кода выделяются позиции (группа символов) из нескольких разрядов.

Последовательное глубокое кодирование используется для реализации иерархической классификационной структуры.

Сама суть метода заключается в том, что сначала записывается код для старшей группировки из 1-го уровня, затем код для группировки 2-го уровня, а далее код группировки 3-го уровня и т.п.

В результате получим кодовую комбинацию, каждый разряд которой будет содержать информацию о специфике всей выделенной группы на каждом из уровней иерархической структуры (рисунок 10).

Рисунок 10 – Пример последовательного кодирования

Также при этом значение характеристик объекта, выраженного каким-либо количеством на определённой позиции, будет зависеть от конкретного значения в предыдущих разрядах кодовой комбинации (только за исключением разрядов для старшей группировки).

Последовательная система кодирования будет обладает теми же достоинствами и недостатками, что иерархическая система. Если же сравнивать ее с порядковой системой, представление дополнительной информации будет достигаться за счёт увеличения избыточности и длины кода.

2.5. Параллельное кодирование

Параллельное кодирование используют для фасетной системы в классификации. Суть метода также заключается в следующем: фасеты кодируются друг от друга независимо (параллельно, одновременно); в каждом фасете в структуре кода уже определяется позиция с одного или нескольких таких разрядов.

Параллельная система кодирования будет обладать основными достоинствами или недостатками, присущими для фасетной системы классификации. Но параллельный код оказывается более избыточным, чем рассмотренный последовательный, поскольку на практике многие сочетания таких признаков могут не существовать вообще и, следовательно, ёмкость не будет использоваться полностью (рисунок 11).

Рисунок 11 – Пример параллельного кодирования

Для использования при автоматизированной обработке и обмена информацией во всех установленных государством уровнях в Российской Федерации предназначен Общероссийский классификатор для специальностей по образованию. Но в целях примера (удобство восприятия и понимание) можно закодировать также каждое направление только первыми тремя буквами наименования. Для кодирования фасета с названием «Форма обучения» будем применять первую букву значения, для номера курса – десятичную цифру.

Структуру кода можно выражать записью «ННН Ф К», ткт ННН – присвоенный код направления; Ф – форма обучения, К – курс.

2.6. Штриховое кодирование

Последним в развитии систем кодирования считается штриховое кодирование.

В настоящее время при автоматической идентификации признаков широко используется оно, основанное на оптическом описании информации различными устройствами – сканером штрих-кода. Для примера можно привести широко известные коды, как:

- UРC – универсальный товарный код;

- EAN – европейский товарный код;

Опуская особенности преобразования для штрихового кода в цифровой, рассмотрим структуру широко распространённого в РФ товарного кода под названием EAN-13. Он состоит с тринадцати цифр, что можно разделить на 4 части:

- первые 2 цифры обозначаются код страны-производителя);

- следующие 5 цифры (в России они начинаются с 2000 г.) – код предприятия-производителя;

- следующие 5 цифр – код продукта, что устанавливается предприятием-производителем;

- последняя цифра – контрольная.

Таким образом, в основании кода EAN-13 лежит также последовательная система для кодирования, поскольку определение значения 2-й части кода возможно после определения первой, третьей – после второй (рисунок 12).

Рисунок 12 – Пример штрихового кодирования

Во втором разделе курсовой работы рассмотрены основные принципы кодирования с помощью специальных систем, приведены определения каждой системы кодирования.

Заключение

Рассмотрение данной темы курсовой работы многими учеными дало возможность возникнуть вычислительной технике, поскольку первоначально она возникла как средство для автоматизации вычислений.

Самым первым видом обрабатываемой информации для кодирования стала текстовая. Сначала разные тексты просто поясняли некоторые труднообозримые столбики цифр, а затем машины все более последовательным образом стали преобразовывать имеющуюся текстовую информацию.

Оформление разных текстов достаточно быстро вызывало у людей стремление как-то дополнить их графиками или рисунками. Делались попытки решить эти проблемы частично в рамках специального символьного подхода: вводились также специальные символы для выполнения рисования таблиц и схем.

Но практические потребности разных людей в графике сделали ее появление среди основных видов компьютерной информации практически неизбежной. Числа, а также тексты и графика образовывали некоторый относительно набор, которого было также достаточно для решаемых многих на компьютере задач.

Постоянный рост быстродействия ПК создал широкие технические возможности по обработке звуковой информации, а также и для быстро сменяющихся графических изображений. Все это далее обусловило и развитие методов представления и кодирования самых различных видов информации по обработке ее на компьютере.

В процессе написания курсовой работы были реализованы следующие задачи:

– выполнена обработка литературы по теории кодирования;

– рассмотрены основные определения, а также классификацию методов кодирования;

– дана характеристика процессу кодирования информации