Файл: Методы кодирования данных (Международные стандарты кодирования данных).pdf

Приведенный здесь список типовых операций с данными далеко не полон. Миллионы людей во всем мире занимаются созданием, обработкой, преобразованием транспортировкой данных, и на каждом рабочем месте выполняются свои специфические операции, необходимые для управления социальными, экономическими, промышленными, научными и культурными процессами. Полный список возможных операций составить невозможно, да и не нужно. Сейчас нам важен другой вывод: работа с информацией может иметь огромную трудоемкость, и ее надо автоматизировать.

Основные структуры данных:

Работа с большими наборами данных автоматизируется проще, когда данные упорядочены, то есть образуют заданную структуру. Существует три основных типа структур данных: линейная, иерархическая и табличная.

Линейные структуры – это хорошо знакомые нам списки. Список – это простейшая структура данных, отличающаяся тем, что адрес каждого элемента данных однозначно определяется его номером. Проставляя на отдельных страницах рассыпанной книги, мы создаем структуру списка, поскольку все студенты группы зарегистрированы в нем под своими уникальными номерами. Мы называем номера уникальными потому, что в одной группе не могут быть зарегистрированы два студента с одним и тем же номером.[2,с.23]

Линейные структуры данных (списки) – это упорядоченные структуры, в которых адрес элемента однозначно определяется его номером.

С таблицами данных мы тоже хорошо знакомы, достаточно вспомнить всем известную таблицу умножения. Табличные структуры отличаются от списочных тем, что элементы данных определяются адресом ячейки, который состоит не из одного параметра, как в списках, а из нескольких. Для таблицы умножения, например, адрес ячейки определяется номерами строки и столбца. Нужная ячейка находится на их пересечении, а элемент выбирается из ячейки.

Табличные структуры данных (матрицы) – это упорядоченные структуры, в которых адрес элемента определяется номером строки и номером столбца, на пересечении которых находится ячейка, содержащая искомый элемент.

Нерегулярные данные, которые трудно представить в виде списка или таблицы, часто представляют в виде иерархических структур. С подобными структурами мы очень хорошо знакомы по обыденной жизни. Иерархическую структуру имеет система почтовых адресов. Подобные структуры также широко применяются в научных систематизациях и всевозможных классификациях.

В иерархической структуре адрес элемента определяется путем доступа (маршрутом), ведущим от вершины структуры к данному элементу.[3,с.4]

Глава 2 Международные стандарты кодирования данных

2.1 Кодирование данных. Международные стандарты

Для автоматизации работы со сведениями, относящимися к разным типам очень важно стандартизировать их форму понятия – для этого как правило используется приём кодирования, т.е. выражение данных одного типа через данные другого подобно. Естественные гуманные языки – системы кодирования мнений для формулирования мыслей с помощью речи. К языкам близко прилегает азбуки – системы кодировки компонентов языка с помощью графичных символов.

Своя системы присутствует и в вычислительной техники – она называется двоичным кодированием и основана на представлении данных последовательностью всего двух знаков: 0 и 1. Эти знаки называют двоичными цифрами, по-английски – binarydigit или сокращённо bit (бит).

Одним битом могут быть выражены два мнения: 0 или 1 (да или нет, чёрное или белое, правда или ложь и т.п.). Если состав битов умножить до двух, то уже допускается выразить четыре разных мнения. Тремя битами есть закодировать 8 различных ролей.

-Кодирование целых и действительных чисел

Целые доли кодируются двоичным адресом в достаточной мере просто - необходимо брать целое количество и делить его пополам до тех пор, поколе частное не будет равно единице. Совокупность фрагментов от каждого деления, записанная справа налево вместе с заключительным частным, и оснует двоичный аналог десятичного числа.[3,с.46]

Для кодировки целых чисел от 0 до 255 довольно иметь 8 разрядов двоичного кода (8 бит). 16 бит позволяют закодировать целые числа от 0 до 65535, а 24 – уже более 16,5 миллионов различных значений.

Для кодирования действительных чисел используют 80-разрядное кодирование. При этом число предварительно преобразовывают в стандартизованную форму:

3,1414926 = 0,31415926 (101

300 000 = 0,3 ( 106

Первая зона числа называется мантиссой, а вторая – характеристикой.

Большой элемент из 80 бит отводят для того сохранения мантиссы (вместе со знаком) и кое-какое фиксированное количество разрядов отводят для хранения характеристики.

-Кодирование текстовых данных

Если каждому знаку алфавита сопоставить определённое целое число, то с помощью бинарного кода можно кодировать текстовую сообщение.

Восьми двоичных разрядов довольно для кодирования 256 всевозможных символов. Это хватит, чтобы выразить разными ходами восьми битов все знаки английского и русского стилей, как строчные, так и большие, а также знаки препинания, знаки основных арифметических действий и некоторые общепринятые особые символы.

Технически это смотрится очень прямо, однако всякий раз существовали довольно веские организационные сложности. В первые годы развития вычислительной техники они были связаны с недостатком необходимых стандартов, а в это время вызваны, напротив, изобилием в одно и тоже время действующих и противоречивых стереотипов. Для того чтобы весь мир одинаково шифровал текстовые данные, нужны единые матрицы кодирования, а это пока нельзя из-за расхождений между символами государственных алфавитов, а также противоречий общего характера.

Для английского языка, захватившего де-факто нишу международного средства общения, противоречия уже сняты. Институт типизации США ввёл в действие систему кодировки ASCII (AmericanStandardCodefor

InformationInterchange – стандартный код информативного обмена США). В системе ASCII зафиксированы две таблицы кодировки базовая и расширенная.

Базовая таблица закрепляет роли кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.[9,с.263]

Первые 32 кода базовой таблицы, вызывая с нулевого, отданы изготовителям аппаратных средств. В этой области размещаются управляющие коды, которым не соответствуют ни какие символы языков.

Начиная с 32 по 127 код размещены адреса символов английского азбуки, знаков препинания, арифметических действий и кое-каких запасных символов.

Кодировка символов российского языка, известная как будто кодировка Windows-1251, была введена «извне» - компанией Microsoft, но, учитывая широкое распространение операционных систем и других товаров этой фирме в России, она глубоко закрепилась и нашла широкое распространение.[4,с.49]

Другая распространённая кодировка носит название КОИ-8 (шифр обмена сведением, восьмизначный) – её происхождение относится к моментам действия Совета Экономической Взаимопомощи стран Восточной Европы.

Сегодня шифровка КОИ – 8 имеет широкое распространение в компьюторных сетях на территории России и в российском секторе Интернета.

Международный стандарт, в котором предусмотрена кодировка символов русского языка, носит названия ISO (InternationalStandardOrganization – Международный вуз стандартизации). На практике эта кодировка используется редко.

2.2 Универсальная система кодирования текстовых данных

Если разобрать организационные проблемы, связанные с произведением единой системы кодировки текстовых данных, то можно прийти к выводу, что они обусловлены ограниченным набором кодов (256). В то же время, очевидно, что если, шифровать знаки не восьмиразрядными двоичными числами, а суммами с большим разрядом то и диапазон возможных значений кодов станет на много больше. Такая система, основанная на 16-разрядном кодировке символов, приобрела название универсальной – UNICODE.

Шестнадцать разрядов разрешают гарантировать уникальные коды для 65 536 различных символов – этого поля целиком достаточно для экспозиции в одной таблице знаков большинства языков планеты.

Несмотря на тривиальную очевидность такого расклада, простой механический перевод на данную систему долгое время удерживался из-за дефектов ресурсов средств вычислительной техники (в системе кодировки UNICODE все текстовые документы становятся механично вдвое длиннее). Во 2-ой половине 90-х годов технические накопления достигли необходимого уровня обеспечения ресурсами, и сегодня мы замечаем постепенный перевод документов и программных средств на многоцелевую систему кодировки.

2.3 Классы методов кодирования данных

Известны два класса методов кодирования дискретного источника информации:

-равномерное

- неравномерное кодирование.

Под размеренным кодированием подразумевается использование адресов со словами неизменной длины. Для этого чтобы дешифрирование равномерного шифра было вероятным, разным знакам алфавита ключа должны согласоваться разные кодовые слова. При этом длина кодового фраз должна быть не менее знаков, где m – охват начального алфавита, n – размер кодового алфавита.

Пример. Для кодировки источника, производящего 26 букв древнего алфавита, равномерным бинарным кодом надлежит построить кодовые слова длиной не менее =5 бит.

При неровном кодировании родника употребляются кодовые слова различной длины. Причем кодовые слова как обычно сооружаются так, что зачастую встречающиеся знаки кодируются сильнее короткими кодовыми текстами, а редкие знаки – более длинными (за счет этого и добивается «сжатие» сведений).[4,с.55]

Глава 3 Российская система классификаторов кодирования

3.1 Общероссийские классификаторы

Важными средствами информативного предоставления, прежде всего в этих видах деятельности, как будто экономика, статистика, банковское дело, таможенное деле, внешнеэкономическая деятельность и др., являются классификаторы технико-экономической и социальной информации, необходимые для обеспечения интегрированной обработки данных в автоматизированных информационных системах.

Классификаторы ТЭиСИ являются нормативными бумагами. Классификатор содержит систематизированный свод наименований объектов, представленных как классификационные классификации, и присвоенные им коды.

Классификации и кодированию подлежат социальные и экономические объекты и их свойства, информация о которых используется в деятельности органов власти и управления и содержится в унифицированных формах документов.[12,с.117]

В настоящее время разработано и действует 37 общероссийских и возобновляющих действовать общесоюзных классификаторов. Совокупность классификаторов технико-экономической и социальной информации, а также научно-методичных и нормативно-технических доказательств по их разработке, ведению и внедрению, а также служб, осуществляющих работы по классификации и кодированию, оформляют Единую систему классификации и кодирования технико-экономической и социальной информации (ЕСКК ТЭИ).

Каждый справочник может быть предназначен для конкретной идентификации объекта, передачи информации на расстояние по каналам связи или для поиска и логической обрабатывания первичной информации с целью получения и выдачи результатной информации.

По сфере усилия выделяют вытекающие виды классификаторов: международные, общегосударственные (общесистемные), отраслевые и локальные классификаторы.

Международные классификаторы вступают в состав Системы интернациональных экономических стандартов (СМЭС) и обязательны для передачи информации между организациями различных стран мирового общества. СМЭС выступает собой масса стандартных решений по кодификационным группировкам и кодированию специальной и экономической сообщении и формированию источников этой информации. В состав СМЭС входят классификации Организации Объединенных наций (ООН) и ее подготовленных образований.