Файл: 1 Кодирование текстовых и символьных данных.doc

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 30.11.2023

Просмотров: 123

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

СОДЕРЖАНИЕ

1.6. Кодирование текстовых и символьных данных В двоичной системе счисления кодирование "внешних" символов основывается на сопоставлении каждому из них определенной группы двоичных знаков. Двоичное кодирование символьных данных производится заданием кодовых таблиц, в которых каждому символу ставится в соответствие одно- или двухбайтовый код. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого количества достаточно, чтобы выразить все символы английского и русского алфавита, а также знаки препинания, символы основных арифметических операций и некоторые специальные символы.Наиболее популярная таблица ASCII (American Standard Code for Information Interchange, американский стандартный код информационного обмена) разработана институтом стандартизации США (American National Standard Institute, ANSI) в 1981 году (табл. 1.10).Коды с 0 до 127 составляют базовую (основную) таблицу, коды со 128 по 255 — расширенную (дополнительную) таблицу. Дополнительная таблица отдана национальным алфавитам и символам псевдографики.Аналогичные системы кодирования текстовых данных были разработаны и в других странах. Так, в СССР действовала система кодирования КОИ-8 (код информационного обмена восьмизначный). Компанией Microsoft была введена кодировка символов русского языка, известная как кодировка Windows-1251. Во многих азиатских странах 256 кодов не хватило. В 1991 году производители программных продуктов (Microsoft, IBM, Apple) выработали единый стандарт Unicode 3.0. Этот код построен по 31-битной схеме. Все текстовые документы в этой кодировке вдвое длиннее, зато она содержит буквы латинского и многих национальных алфавитов, спецсимволы и т. п. Таблица 1.10. Базовая таблица кодировки ASCII

1.7. Кодирование графических данных

1.8. Кодирование звуковой информации

1.9. Структуры данных

1.10. Файлы и файловая структура

1.11. Измерение и представление информации

1.12. Теоремы Шеннона

1.13. Математические основы информатики


Изложенный подход хорошо применим при анализе технической информации. В информации социального плана на первый план выступают такие ее свойства, как истинность, своевременность, ценность, полнота и т. п. Обращение к качественной стороне информации породило иные подходы к ее оценке. При семантическом подходе информация рассматривается с точки зрения как формы, так и содержания. Для измерения смыслового содержания информации, т. е. ее количества на семантическом уровне наибольшее признание получила тезаурусная мера. Эта мера связывает семантические свойства информации со способностью пользователя принимать поступившие сообщения.

Р
ис. 1.6.
Зависимость количества информации, воспринимаемой потребителем, от его тезауруса

Тезаурусом называется словарь или свод данных, полностью охватывающий термины и понятия какой-нибудь специальной сферы, т. е. это совокупность сведений, которыми располагает объект. В зависимости от соотношений между смысловым содержанием информации и тезаурусом пользователя изменяется количество семантической информации , воспринимаемой пользователем. При пользователь не воспринимает, т. е. не понимает поступающую информацию; при пользователь все знает, и поступающая информация ему не нужна (рис. 1.6). Максимальное количество семантической информации пользователь приобретает при согласовании ее смыслового содержания со своим тезаурусом . В этом случае информация понятна пользователю и несет ему ранее не известные сведения (они отсутствуют в его тезаурусе).


1.12. Теоремы Шеннона


При передаче сообщений по каналам связи всегда возникают помехи, приводящие к искажению принимаемых сигналов. Исключение помех при передаче сообщений является очень серьезной теоретической и практической задачей. Ее значимость только возрастает в связи с повсеместным внедрением компьютерных телекоммуникаций. Все естественные человеческие языки обладают большой избыточностью, что позволяет сообщениям, составленным из знаков таких языков, иметь заметную помехоустойчивость.

Избыточность могла бы быть использована и при передаче кодированных сообщений в технических системах. Самый простой способ повышение избыточности — передача текста сообщения несколько раз в одном сеансе связи. Однако большая избыточность приводит к большим временным затратам при передаче информации и требует большого объема памяти. К настоящему времени вопрос об эффективности кодирования изучен достаточно полно.

Пусть задан алфавит , состоящий из конечного числа букв, конечная последовательность символов из называется словом, а множество всех непустых слов в алфавите обозначим через . Аналогично для алфавита слово обозначим , а множество всех непустых слов .

Рассмотрим соответствие между буквами алфавита и словами алфавита : . Это соответствие называется схемой алфавитного кодирования и обозначается
. Алфавитное кодирование определяется следующим образом: каждому слову ставится в соответствие слово , называемое кодом слова . Слова называются элементарными кодами. Ограничением задачи передачи кодов является отсутствие помех. Требуется оценить минимальную среднюю длину кодовой комбинации.

При разработке различных систем кодирования данных получены теоретические результаты, позволяющие получить сообщение с минимальной длиной кодов. Два положения из теории эффективности кодирования известны как теоремы Шеннона.

Первая теорема говорит о существовании системы эффективного кодирования дискретных сообщений, у которой среднее число двоичных символов (букв алфавита ) на единицу сообщения (букву алфавита ) асимптотически стремится к энтропии источника сообщения, т. е. кодирование в пределе не имеет избыточности.

Рассмотрим вновь пример 1 из раздела 1.11, закодировав анализированное сообщение по алгоритму Фано3. В таблице . 1.12 приведены коды букв в сообщении (слова ), длина кода , вероятности букв сообщения , величины и .

Таблица 1.12

Но-

мер

Бук-

ва

Код









1

ж

10110

5

0.0294

0.1470

–0.1496

2

и

000

3

0.1176

0.3528

–0.3632

3

л

0111

4

0.0883

0.3532

–0.3092

4

-

10111

5

0.0294

0.1470

–0.1496

5

б

0110

4

0.0883

0.3532

–0.3092

6

ы

10101

5

0.0294

0.1470

–0.1496

7

пробел

001

3

0.1176

0.3528

–0.3632

8

а

10100

5

0.0294

0.1470

–0.1496

9

у

1000

4

0.0589

0.2356

–0.2406

10

ш

11000

5

0.0294

0.1470

–0.1496

11

к

010

3

0.1176

0.3528

–0.3632

12

с

11001

5

0.0294

0.1470

–0.1496

13

е

1001

4

0.0589

0.2356

–0.2406

14

р

11010

5

0.0294

0.1470

–0.1496

15

н

11011

5

0.0294

0.1470

–0.1496


Продолжение таблицы 1.12

Номер

Буква

Код









16

ь

11100

5

0.0294

0.1470

–0.1496

17

й

11101

5

0.0294

0.1470

–0.1496

18

о

11110

5

0.0294

0.1470

–0.1496

19

з

11111

5

0.0294

0.1470

–0.1496



















Математическое ожидание количества символов из алфавита при кодировании равно . Этому среднему числу символов соответствует максимальная энтропия . Для обеспечения передачи информации, содержащейся в сообщении, должно выполняться условие . В этом случае закодированное сообщение имеет избыточность. Коэффициент избыточности определяется следующим образом: