Файл: Могилев А.В. Информатика.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 31.03.2021

Просмотров: 6569

Скачиваний: 50

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

 

16 

 

Ранее мы неоднократно употребляли термин «информация», никак его при этом не раскры-

вая. 

Понятие

 информация

 является одним из фундаментальных в современной науке вообще и 

базовым  для  изучаемой  нами  информатики.  Информацию  наряду  с  веществом  и  энергией  рас-
сматривают  в  качестве  важнейшей  сущности  мира,  в  котором  мы  живем.  Однако,  если  задаться 
целью формально определить понятие «информация», то сделать это будет чрезвычайно сложно. 
Аналогичными  «неопределяемыми»  понятиями,  например,  в  математике  является  «точка»

 

или

 

«прямая». Так, можно сделать некоторые утверждения, связанные с этими математическими поня-
тиями, но сами они не могут быть определены с помощью более элементарных понятий. 

В простейшем бытовом понимании с термином «информация» обычно ассоциируются не-

которые сведения, данные, знания и т.п. Информация передается в виде 

сообщений,

  определяю-

щих  форму  и  представление  передаваемой  информации.  Примерами  сообщений  являются  музы-
кальное произведение; телепередача; команды регулировщика на перекрестке; текст, распечатан-
ный на принтере; данные, полученные в результате работы составленной вами программы и т.д. 
При этом предполагается, что имеются «источник информации» и «получатель информации». 

Сообщение  от  источника  к  получателю  передается  посредством  какой-нибудь  среды,  яв-

ляющейся в таком случае «каналом связи» (рис. 1.3). Так, при передаче речевого сообщения в ка-
честве  такого  канала  связи  можно  рассматривать  воздух,  в  котором  распространяются  звуковые 
волны, а в случае передачи письменного сообщения (например, текста, распечатанного на принте-
ре) каналом сообщения можно считать лист бумаги, на котором напечатан текст. 

 

 

 

Рис. 1.3. Схема передачи информации 

 
Человеку  свойственно  субъективное  восприятие  информации  через  некоторый  набор  ее 

свойств: важность, достоверность, своевременность, доступность и т.д. В этом смысле одно и то 
же сообщение, передаваемое от источника к получателю, может передавать информацию в разной 
степени. Так, например, вы хотите сообщить о неисправности компьютера. Для инженера из груп-
пы технического обслуживания сообщение «компьютер сломался» явно содержит больше инфор-
мации, чем для вахтера. Но, в свою очередь, для инженера сообщение «не  включается дисплей» 
содержит  информации  больше,  чем  первое,  поскольку  в  большей  степени  снимает  неопределен-
ность, связанную с причиной неисправности компьютера. Как видно, одно и то же сообщение для 
различных пользователей несет различную информацию. 

Использование терминов «больше информации» или «меньше информации» подразумевает 

некую возможность ее

 измерения

 (или хотя бы количественного соотнесения). При субъективном 

восприятии  измерение  информации  возможно  лишь  в  виде  установления  некоторой  порядковой 
шкалы для оценки «больше» -«меньше», да и то субъективной, поскольку на свете немало людей, 
для которых, например, оба сообщения, использованных выше в качестве примера, вообще не не-
сут никакой информации. Такое становится невозможным при введении объективных характери-
стик, из которых для информации важнейшей является количество. Однако, при объективном из-
мерении  количества  информации  следует  заведомо  отрешиться  от  восприятия  ее  с  точки  зрения 
субъективных  свойств,  примеры  которых  перечислены  выше.  Более  того,  не  исключено,  что  не 
всякая информация будет иметь объективно измеряемое количество - все зависит от того, как бу-
дут введены единицы измерения. Не исключено и то, что при разных способах введения единиц 
измерения информация, содержащаяся в двух допускающих измерение сообщениях, будет по раз-
ному соотноситься. 

 

2.2. НЕПРЕРЫВНАЯ И ДИСКРЕТНАЯ ИНФОРМАЦИЯ 

 


background image

 

17 

Чтобы сообщение было передано от источника к получателю, необходима некоторая мате-

риальная субстанция -

 носитель

 информации. Сообщение, передаваемое с помощью носителя, на-

зовем сигналом. В общем случае

 сигнал

 - это изменяющийся во времени физический процесс. Та-

кой процесс может содержать различные характеристики (например, при передаче электрических 
сигналов могут изменяться напряжение и  сила  тока). Та из характеристик,  которая используется 
для представления сообщений, называется 

параметром сигнала.

 

В случае когда параметр сигнала принимает последовательное во времени конечное число 

значений (при этом все они могут быть пронумерованы), сигнал называется

 дискретным,

 а сооб-

щение, передаваемое с помощью таких сигналов -дискретным сообщением. Информация, переда-
ваемая источником, в этом случае также называется дискретной. Если же источник вырабатывает 
непрерывное  сообщение  (соответственно  параметр  сигнала  -  непрерывная  функция  от  времени), 
соответствующая  информация  называется  непрерывной.  Пример  дискретного  сообщения  -  про-
цесс чтения книги, информация в которой представлена  текстом, т.е. дискретной последователь-
ностью отдельных значков (букв). Примером непрерывного сообщения служит человеческая речь, 
передаваемая модулированной звуковой волной; параметром сигнала в этом случае является дав-
ление, создаваемое этой волной в точке нахождения приемника - человеческого уха. 

Непрерывное  сообщение  может  быть  представлено  непрерывной  функцией,  заданной  на 

некотором отрезке [а, Ь] (см. рис. 1.4). Непрерывное сообщение можно преобразовать в дискрет-
ное (такая процедура называется 

дискретизацией

). Для этого из бесконечного множества значе-

ний этой функции (параметра сигнала) выбирается их определенное число, которое приближенно 
может  характеризовать  остальные  значения.  Один  из  способов  такого  выбора  состоит  в  следую-
щем. Область определения функции разбивается точками 

x

1

x

2

,...

 

х

n

,

 на отрезки равной длины и на 

каждом из этих отрезков значение функции принимается постоянным и равным, например, сред-
нему значению на этом отрезке; полученная на этом этапе функция называется в математике сту-
пенчатой.  Следующий  шаг  -  проецирование  значений  «ступенек»  на  ось  значений  функции  (ось 
ординат). Полученная таким образом последовательность значений функции 

у

1

, у

2

, ... у

n

.

 является 

дискретным  представлением  непреравной  функции,  точность  которого  можно  неограниченно 
улучшать путем уменьшения длин отрезков разбиения области значений аргумента. 

 

 

Рис. 1.4. Процедура дискретизации непрерывного сообщения 

Ось значений функции можно разбить на отрезки с заданным шагом и отобразить каждый 

из выделенных отрезков из области определения функции в соответствующий отрезок из множе-
ства значений (рис. 1.4). В итоге получим конечное множество чисел, определяемых, например, по 
середине или одной из границ таких отрезков. 

Таким образом, любое сообщение может быть представлено как дискретное, иначе говоря 

последовательностью знаков некоторого алфавита. 

Возможность дискретизации непрерывного сигнала с любой желаемой точностью (для воз-

растания точности достаточно уменьшить шаг) принципиально важна с точки зрения информати-
ки. Компьютер - цифровая машина, т. е- внутреннее представление информации в нем дискретно. 
Дискретизация входной информации  (если она  непрерывна) позволяет сделать ее пригодной  для 
компьютерной обработки. 

Существуют  и  другие  вычислительные  машины  -  аналоговые  ЭВМ.  Они  используются 

обычно для решения задач специального характера и широкой публике практически не известны. 
Эти ЭВМ в принципе не нуждаются в дискретизации входной информации, так как ее внутреннее 


background image

 

18 

представление  у  них  непрерывно.  В  этом  случае  все  наоборот  -  если  внешняя  информация  дис-
кретна, то ее «перед употреблением» необходимо преобразовать в непрерывную. 

 

2.3. ЕДИНИЦЫ КОЛИЧЕСТВА ИНФОРМАЦИИ: 

ВЕРОЯТНОСТНЫЙ И ОБЪЕМНЫЙ ПОДХОДЫ 

 

Определить понятие «количество информации» довольно сложно. В решении этой пробле-

мы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 
40-х годов XX века один из основоположников кибернетики американский математик Клод Шен-
нон  развил  вероятностный  подход  к  измерению  количества  информации,  а  работы  по  созданию 
ЭВМ привели к «объемному» подходу. 

 

Вероятностный подход 

 
Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной .кости, 

имеющей N граней (наиболее распространенным является случай шестигранной кости: N = 6). Ре-
зультаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 
1,2,... N. 

Введем  в  рассмотрение  численную  величину,  измеряющую  неопределенность  -

энтропию

 

(обозначим  ее  Н).  Величины  N  и  Н  связаны  между  собой  некоторой  функциональной  зависимо-
стью: 

 

H = f (N)

,  

 

 

 

 

 

(1.1) 

 
а  сама  функция 

f

  является  возрастающей,  неотрицательной  и  определенной  (в  рассматри-

ваемом нами примере) для N = 1, 2,... 6. 

Рассмотрим процедуру бросания кости более подробно: 
1) готовимся бросить кость; исход опыта неизвестен, т.е. имеется некоторая неопределен-

ность; обозначим ее H1; 

2)  кость  брошена;  информация  об  исходе  данного  опыта  получена;  обозначим  количество 

этой информации через I; 

3) обозначим неопределенность данного опыта после его осуществления через H2. За коли-

чество  информации,  которое  получено  в  ходе  осуществления  опыта,  примем  разность  неопреде-
ленностей «до» и «после» опыта: 

 

I = H1 - H2

    

 

 

 

 

(1.2) 

 
Очевидно, что в случае, когда получен конкретный результат, имевшаяся неопределенность 

снята 

(Н2

 = 0), и, таким образом, количество полученной информации совпадает с первоначальной 

энтропией.  Иначе  говоря,  неопределенность,  заключенная  в  опыте,  совпадает  с  информацией  об 
исходе этого опыта. Заметим, что значение Н2 могло быть и не равным нулю, например, в случае, 
когда в ходе опыта следующей выпала грань со значением, большим «З». 

Следующим важным моментом является определение вида функции 

f

 в формуле (1.1). Если 

варьировать  число  граней 

N

  и  число  бросаний  кости  (обозначим  эту  величину  через 

М),

  общее 

число исходов (векторов длины М, состоящих из знаков 1,2,.... 

N)

 будет равно 

N

 в степени 

М: 

 

X=N

M

.

  

 

 

 

 

 

(1.3) 

 
Так, в случае двух бросаний кости с шестью гранями имеем: 

Х

 = 6

2

 = 36. Фактически каж-

дый исход 

Х

 есть некоторая пара 

(X1, X2),

 где 

X1

 и 

X2 -

 соответственно исходы первого и второго 

бросаний (общее число таких пар - 

X).

 

Ситуацию с бросанием 

М

 раз кости можно рассматривать как некую сложную систему, со-

стоящую

 

из независимых друг от друга подсистем - «однократных бросаний кости». Энтропия та-

кой системы в 

М

 раз больше, чем энтропия одной системы (так называемый «принцип аддитивно-

сти энтропии»): 


background image

 

19 

 

f(6

M

) = M ∙ f(6) 

 
Данную формулу можно распространить и на случай любого 

N: 

 

                                                  F(N

M

) = M ∙ f(N)

 

 

 

 

 

(1.4) 

 
Прологарифмируем левую и правую части формулы (1.3): ln 

X  =  M  ∙ 

ln 

N

,

  М

  =

 

ln 

X/

1n 

M

.  

Подставляем полученное для 

M

 значение в формулу (1.4): 

 

 

Обозначив через 

К

 положительную константу , получим: 

f(X) = К ∙ lп Х,

 или, с учетом (1.1)

H=K ∙ 

ln

 N.

 Обычно принимают 

К

 = 1 / ln 2. Таким образом 

 

H = 

log

2

 

N

.    

 

 

 

 

(1.5) 

 

Это - 

формула Хартли. 

Важным при введение какой-либо величины является вопрос о том, что принимать за еди-

ницу ее измерения. Очевидно, 

Н

 будет равно единице при 

N = 2.

 Иначе говоря, в качестве едини-

цы принимается количество информации, связанное с проведением опыта,  состоящего в получе-
нии  одного  из  двух  равновероятных  исходов  (примером  такого  опыта  может  служить  бросание 
монеты при котором возможны два исхода: «орел», «решка»). Такая единица количества инфор-
мации называется «бит». 

Все 

N

  исходов  рассмотренного  выше  опыта  являются  равновероятными  и  поэтому  можно 

считать, что на «долю» каждого исхода приходится одна 

N-я

 часть общей неопределенности опы-

та: (log

2

 

N)

1

N.

 При этом вероятность 

i

-го исхода 

Р

i

 

равняется, очевидно, 1

/N. 

Таким образом, 

 

 

Та же формула (1.6) принимается за меру энтропии в случае, когда вероятности различных 

исходов  опыта

  неравновероятны

  (т.е. 

Р

i

  могут  быть  различны).  Формула  (1.6)  называется

  фор-

мулой Шеннона.

 

В  качестве  примера  определим  количество  информации,  связанное  с  появлением  каждого 

символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит 
из 33 букв и знака «пробел» для разделения слов. По формуле (1.5) 

 

Н

 = log

2

 34 ≈ 5 бит. 

 

Однако,  в  словах  русского  языка  (равно  как  и  в  словах  других  языков)  различные  буквы 

встречаются  неодинаково  часто.  Ниже  приведена  табл.  1.3  вероятностей  частоты  употребления 
различных  знаков  русского  алфавита,  полученная  на  основе  анализа  очень  больших  по  объему 
текстов. 

Воспользуемся для подсчета 

Н

 формулой (1.6); 

Н 

≈ 4,72 бит. Полученное значение 

Н,

 как и 

можно  было  предположить,  меньше  вычисленного  ранее.  Величина 

Н, 

вычисляемая  по  формуле 

(1.5), является максимальным количеством информации, которое могло бы приходиться на один 
знак. 

 

Таблица 1.3. Частотность букв русского языка 

 

Символ 

Р(

i

Символ 

P(

i

Символ 

Р(

i

Пробел 

0,175 

13 

 

0,028 

24 

Г 

0.012 


background image

 

20 

0,090 

14 

М 

0,026 

25 

Ч 

0,012 

Е 

0,072 

15 

Д 

0,025 

26 

И 

0,010 

Ё 

0,072 

16 

П 

0,023 

27 

0,009 

А 

0,062 

17 

У 

0,021 

28 

Ж 

0,007 

И 

0,062 

18 

Я 

0,018 

29 

Ю 

0,006 

Т 

0,053 

19 

Ы 

0,016 

30 

Ш 

0.006 

Н 

0,053 

20 

З 

0.016 

31 

Ц 

0,004 

С 

0,045 

21 

Ь 

0,014 

32 

Щ 

0,003 

10 

Р 

0,040 

22 

Ъ 

0,014 

33 

Э 

0,003 

11 

В 

0,038 

23 

Б 

0,014 

34 

Ф 

0,002 

12 

Л 

0,035 

 

 

 

 

 

 

 

Аналогичные подсчеты 

Н

 можно провести и для других языков, например, использующих 

латинский алфавит - английского, немецкого, французского и др. (26 различных букв и «пробел»). 
По формуле (1.5) получим 

 

H

 = log

2

 27 ≈ 4,76 бит. 

 
Как и в случае русского языка, частота появления тех или иных знаков не одинакова. 
Если расположить все буквы данных языков в порядке убывания вероятностей, то получим 

следующие последовательности: 

АНГЛИЙСКИЙ ЯЗЫК:  

 

 

«пробел», E, T, A, O, N, R, …  

НЕМЕЦКИЙ ЯЗЫК:  

 

 

«пробел», Е, N, I, S, Т, R, … 

ФРАНЦУЗСКИЙ ЯЗЫК:    

 

«пробел», Е, S, А, N, I, Т, … 

Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в 

двоичном алфавите связаны одинаковые вероятности их появления 

(Р(0) = Р(1) =

 0,5), то количе-

ство информации на один знак при двоичном кодировании будет равно 

 

 

= 1оg

2

 2 = 1 бит. 

Таким  образом,  количество  информации  (в  битах),  заключенное  в  двоичном  слове,  равно 

числу двоичных знаков в нем. 

 

Объемный подход 

 

В двоичной системе счисления знаки 0 и 1 будем называть 

битами

 (от английского выра-

жения Binary digiTs - двоичные цифры). Отметим, что создатели компьютеров отдают предпочте-
ние именно двоичной системе счисления потому, что в техническом устройстве наиболее просто 
реализовать  два  противоположных  физических  состояния:  некоторый  физический  элемент, 
имеющий  два  различных  состояния:  намагниченность  в  двух  противоположных  направлениях; 
прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и 
т.п. В компьютере бит является наименьшей возможной единицей информации. Объем информа-
ции, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации 
подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, 
в частности, невозможно нецелое число битов (в отличие от вероятностного подхода). 

Для  удобства  использования  введены  и  более  крупные,  чем  бит,  единицы  количества  ин-

формации. Так, двоичное слово из восьми знаков содержит один, 

байт

 

информации,

  1024  байта 

образуют 

килобайт

  (кбайт),  1024  килобайта  - 

мегабайт

  (Мбайт),  а  1024  мегабайта  - 

гигабайт

 

(Гбайт). 

Между вероятностным и объемным количеством информации соотношение неоднозначное. 

Далеко не всякий текст, записанный двоичными символами, допускает измерение объема инфор-
мации в кибернетическом смысле, но заведомо допускает его в объемном. Далее, если некоторое 
сообщение допускает измеримость количества информации в обоих смыслах, то они не обязатель-
но совпадают, при этом кибернетическое количество информации не может быть больше объем-
ного.