Файл: Предмет и основные понятия информатики.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 30.11.2023

Просмотров: 88

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Подход К. Шеннона
Клод Шеннон основывается на теоретико–вероятностном подходе. Это связано с тем, что исторически шенноновская теория информации выросла из потребностей теории связи, имеющей дело со статистическими характеристиками передаваемых сообщений и каналов связи.
Пусть существует некоторое конечное множество событий (состояний системы): X={x
1
, x
2
, …, x
N
}, которые могут наступать с вероятностями: p(x
i
), соответственно, причем множество вероятностей удовлетворяет естественному условию нормировки:

Барвенов С.А. _____________________________________________________________________________ 6
Исходное множество событий характеризуется некоторой неопределенностью, т.е. энтропией Хартли, зависящей, как мы видели выше, только от мощности множества. Но Шеннон обобщает это понятие, учитывая, что различные события в общем случае не равновероятны. Например, неопределенность системы событий: {монета упала "орлом", монета упала "решкой"}, значительно выше, чем неопределенность событий: {монета упала "орлом", монета упала "ребром"}, так как в первом случае варианты равновероятны, а во втором случае вероятности вариантов сильно отличаются:
(4
. 1)
Если измерять количество информации изменением степени неопределенности, то шенноновское количество информации численно совпадает с энтропией исходного множества:
(4
. 2)
4.2.3. СВЯЗЬ ФОРМУЛ К. ШЕННОНА И Р. ХАРТЛИ
Следуя [391], приведем вывод выражения Шеннона (4.2) непосредственно из выражения Хартли для количества информации: I=Log
2
(N).
Пусть события исходного множества мощности N равновероятны: тогда учитывая, что непосредственно из формулы Хартли получаем
Остается предположить, что это выражение верно и для случая, когда события
неравновероятны [391]. В этом предположении и состоит обобщение Клода Шеннона, составившее целую эпоху в развитии современной теории информации.
В 1948 году Шенон предложил следующий способ измерения количества информации. Пусть X - случайная величина, принимающая значения x
1
, x
2
, x
3
,…, x n
c вероятностью p
1
, p
2
, p
3
,…, p n
, и Y- случайная величина, принимающая значения y
1
, y
2
, y
3
,…, y n
c вероятностью q
1
, q
2
, q
3
,…, q n
. Тогда информация I(X,Y) относительно Y, содержащаяся в X, определяется формулой
å
=
ij
j
i
ij
ij
q
p
p
p
Y
X
I
2
log
)
,
(
где p ij
— вероятность совмещения событий Х = x i
и Y= y j
Свойства информации:
5. I(X, Y)≥0,
6. I(X, Y) = 0 при p ij
= p i
q j
т.е. X, Y – независимые события,
7. I(X, Y) = I(Y, X),
8. I(X, Y) = H(X) + H(Y) – H(X, Y), где H – информационная энтропия,
H(X) = ∑ p i
log
2
(1/p i
), H(Y) = ∑ q j
log
2
(1/q j
), H(X, Y) = ∑ p ij log
2
(1/p ij
).
Величина энтропии показывает среднее число знаков, необходимых для различия (записи) возможных значений случайной величины. Это позволяет понять роль количества информации при хранении информации в запоминающих устройствах.
Если величины X,Y – независимые, то для записи Х требуется в среднем H(X) двоичных знаков, для записи Y – H(Y), а для пары (X,Y) надо H(X)+H(Y) двоичных знаков.


Барвенов С.А. _____________________________________________________________________________ 7
Если величины X,Y зависимы, то среднее число двоичных знаков оказывается меньше:
H(X,Y)=H(X)+H(Y)-I(X,Y).
Сравнение подходов Р. Хартли и К. Шеннона
Чрезвычайно важным и принципиальным является то обстоятельство, что для построения меры
Хартли используется лишь понятие многообразие, которое накладывает на элементы исходного множества лишь одно условие (ограничение): должна существовать возможность отличать эти элементы один от другого.
В теории Шеннона существенным образом используется статистика, причем предполагается, что случайные события (состояния системы) распределены по нормальному закону.
Таким образом, различие между подходами Хартли и Шеннона к построению теории информации соответствует различию между непараметрическими и параметрическими методами в статистике.
Если говорить более конкретно, то, очевидно, что мера Шеннона асимптотически переходит в меру
Хартли при условии, что вероятности всех событий (состояний) равны.
В статистике доказано фундаментальное свойство энтропии случайного процесса, состоящее в том, что при условии нормальности распределения и достаточно больших выборках все множество событий можно разделить на две основные группы:
· высоковероятные события (считающиеся заслуживающими изучения);
· маловероятные события (считаются не заслуживающими особого внимания).
Причем высоковероятные события с высокой точностью равновероятны. При увеличении размерности выборки доля "заслуживающих внимания" событий неограниченно уменьшается, и мера
Шеннона асимптотически переходит в меру Хартли. Поэтому можно считать, что при больших нормально распределенных выборках мера Хартли является оправданным упрощением меры Шеннона.
Кодирование информации
Очевидно, что для кодирования информации достаточно использовать любые два различных значения, например, цифры 0 и 1 (да и нет, истина и ложь и т. п.). В этом случае применительно к кодировке чисел мы имеем дело с так называемой двоичной системой счисления. В общем случае, необходимо говорить о кодировке любых символов (не чисел!), не смешивая эти две разные задачи.
Для измерения количества информации используют 1 бит – один символ двухбуквенного алфавита, состоящего из нулей и единиц {0, 1}.
Кроме этого используются также следующие единицы:
1 байт=8 бит,
1024 байт=1 Кбайт,
1024 Кбайт=1 Мбайт,
1024 Мбайт=1 Гбайт.
Кодировка чисел
Целые числа в системе счисления с любым основанием (2, 10, 16 и т.д.) всегда представляются точно.
Так, любое целое число представляется в виде суммы степеней числа, лежащего в основании системы счисления с соответствующими коэффициентами — от 0 до 9 в десятичной, 0 и 1 в двоичной, от 0 до F (15) в шестнадцатеричной системах. Для определенности остановимся на двоичном представлении.
При этом, как показано выше, чем большее количество двоичных разрядов отводится под хранение целого числа, тем больше возможный диапазон изменения его значений.
Минимальное количество использующихся двоичных разрядов (применительно к компьютерным технологиям) равно 8, что составляет 1 байт.
Легко убедиться, что 8 двоичных разрядов позволяют закодировать числа от 0 до 255. Если же отвести один из разрядов под хранение знака числа, то те же 8 разрядов обеспечат возможность кодировки целых чисел от -128 до 127.
Для кодировки вещественных чисел, когда необходимо учесть и десятичную часть числа, используется особая форма представления — с плавающей точкой:
X = M * 2P
Здесь M — так называемая мантисса, Р — порядок.
При хранении чисел с плавающей точкой выделяется определенное количество разрядов под хранение мантиссы и под хранение порядка. Точность представления вещественного числа зависит от разрядности мантиссы, а возможный диапазон изменения — от количества разрядов, выделенных для хранения порядка.


Барвенов С.А. _____________________________________________________________________________ 8
Кодировка символов
Кодировка символов применительно к компьютерным приложениям базируется обычно на системе кодировки ASCII (American Standard Code for Information Interchange- Американский стандартный код для обмена информацией) — 256 различных, упорядоченных по коду (номеру) символов. Значения кода — целые числа от 0 до 255.
Для кодирования одного символа используется 8 битов, или 1 байт. В этом легко убедиться, если записать значения кодов в двоичной системе. Существует много систем кодировки, основанных на выделении 1 байта для кодирования одного символа (ANSI, KOI-8 и т.д.). В последнее время получила распространение система Unicode, использующая для кодировки одного символа 2 байта. Это резко расширило возможности, позволив кодировать более чем 65000 различных символов уникальными кодами.
Кодировка изображений
Под изображением будем понимать прямоугольную область, закрашенную непрерывно изменяющимся цветом. Поэтому для представления изображений в целых числах необходимо отдельно дискретизировать прямоугольную область и цвет.
Для описания области она разбивается на множество точечных элементов – пикселов [pixel]. Само множество называется растром [bit map, dot matrix, raster] (см. рис. 1.3), а изображения, которые формируются на основе растра, называются растровыми.
Рис. 1.4 Дискретизация области изображения
Число пикселов называется разрешением [resolution]. Часто встречаются значения 640х480, 800х600,
1024х768, 1280х1024. Каждый пиксел нумеруется, начиная с нуля слева направо и сверху вниз.
Для представления цвета используются цветовые модели.
Цветовая модель [color model] это правило, по которому может быть вычислен цвет. Самая простая цветовая модель – битовая. В ней для описания цвета каждого пиксела (чёрного или белого) используется всего один бит. Для представления полноцветных изображений используются несколько более сложных моделей.
Известно, что любой цвет может быть представлен как сумма трёх основных цветов: красного, зелёного и синего. Если интенсивность каждого цвета представить числом, то любой цвет будет выражаться через набор из трёх чисел. Так определяется наиболее известная цветовая RGB-модель. На каждое число отводится один байт. Так можно представить 224 цвета, то есть примерно 16,7 млн. цветов. Белый цвет в этой модели представляется как (1,1,1), чёрный – (0,0,0), красный (1,0,0), синий (0,0,1). Жёлтый цвет является комбинацией красного и зелёного и потому представляется как (1,1,0).
Цветовая модель RGB [Red-Green-Blue] была стандартизирована в 1931 г. и впервые использована в цветном телевидении. Модель RGB является аддитивной моделью, то есть цвет получается в результате сложения базовых цветов. Существуют и другие цветовые модели, которые для ряда задач оказываются более предпочтительными, чем RGB-модель.
Например, для представления цвета в принтере используется субтрактивная CMY-модель [Cyan-
Magenta-Yellow], цвет в которой получается в результате вычитания базовых цветов из белого цвета.
Белому цвету в этой модели соответствует (0,0,0), чёрному - (1,1,1), голубому - (1,0,0), сиреневому - (0,1,0), жёлтому - (0,0,1).
В цветовой модели HSV [Hue-Saturation-Value] цвет представляется через цвет, насыщенность и значение, а в модели HLS [Hue-Lightness-Saturation] через оттенок, яркость и насыщенность. Современные графические редакторы, как правило, могут работать с несколькими цветовыми моделями.
Наиболее популярными являются графические форматы: BMP [Bit MaP], PCX, GIF [Graphics
Interchange Format], TIFF [Tagged Image File Format], JPEG [Joint Photographic Experts Group], которые по существу различаются между собой используемыми методами сжатия. Форматы BMP и PCX используют
RLE-алгоритм, форматы GIF и TIFF – LZW-алгоритм, JPEG использует одноимённый алгоритм сжатия.
Пример
Пусть имеется изображение вида
Будем считать, что белый цвет представляется нулём, а чёрный – единицей, тогда в однобитовой модели такое изображение представится в виде:


Барвенов С.А. _____________________________________________________________________________ 9 0000000000000000 0000000000000000 0000111110000000 0000100010000000 0000100010000000 0000111110000000 0000000000000000 0000000000000000
В шестнадцатеричном виде этот двоичный набор будет выглядеть так:
00 00 00 00 0F 80 08 80 08 80 0F 80 00 00 00 00
Всего для хранения такого изображения потребуется 16 байт.
Данное изображение легко преобразовать в RGB-модель. Достаточно заменить все нули тройками
(1,1,1), а все единицы - тройками (0,0,0). Тогда получим следующее шестнадцатеричное представление изображения:
FF FF FF FF FF FF FF FF FF FF FF FF FF F0 00 1F FF FF
FF F1 FF 1F FF FF FF F1 FF 1F FF FF FF F0 00 1F FF FF
FF FF FF FF FF FF FF FF FF FF FF FF
Для хранения такого изображения потребуется 48 байт.
Цифровое представление звука
Звук можно описать в виде совокупности синусоидальных волн определённых частоты и амплитуды.
Частота волны определяет высоту звукового тона, амплитуда – громкость звука. Частота измеряется в герцах (Гц [Hz]). Диапазон слышимости для человека составляет от 20 Гц до 17000 Гц (или 17 кГц).Рис. 1.5
Дискретизация звукового сигнала
Задача цифрового представления звука, таким образом, сводится к задаче описания синусоидальной кривой. Принцип такого представления изображён на рис. 1.5.
Каждой дискретной выборке присваивается целое число – значение амплитуды. Количество выборок в секунду называется частотой выборки [sampling rate]. Количество возможных значений амплитуды называется точностью выборки [sampling size]. Таким образом, звуковая волна представляется в виде ступенчатой кривой. Ширина ступеньки тем меньше, чем больше частота выборки, а высота ступеньки тем меньше, чем больше точность выборки.
Пример
Возможности наиболее распространённой современной аппаратуры предусматривают работу с частотой выборки до 44,1 кГц, что позволяет правильно описывать звук частотой до 22,05 кГц. Точность выборки имеет всего два значения 8 бит и 16 бит. То есть для представления амплитуды 8-битного звука используется 28 = 256 уровней амплитуды.
Контрольные вопросы
1. Что изучает наука информатика?
2. Что понимают под интерфейсом пользователя?
3. Что такое информация? Какими свойствами она владеет?
4. Из каких операций складывается процесс обработки данных?
5. Что такое информационная система?
6. Из каких этапов складывается работа информационных систем?
7. Какой смысл вкладывается у понятия "информационная технология"?
Список рекомендованной литературы
1. Информатика. Компьютерная техника. Компьютерные технологии. / Пособие под ред.
О.И.Пушкаря.— Издательский центр "Академия", Киев, — 2001 г.
2. Коцюбинский А.О., Грошев С.В. Современный самоучитель профессиональной работы на компьютере. — Г.: Триумф, 1999 г.
3. Информатика. Базовый курс. / Под ред. С.В.Симоновича. — Спб., 2000 г.
4.
http://lc.kubagro.ru/aidos/aidos99/4.htm
5.
http://victoria.lviv.ua/html/informatika/lecture9.htm


Барвенов С.А. ____________________________________________________________________________ 10
"Сжатие данных"
Характерной особенностью большинства типов данных является их избыточность. Степень избыточности данных зависит от типа данных. Например, для видеоданных степень избыточности в несколько раз больше чем для графических данных, а степень избыточности графических данных, в свою очередь, больше чем степень избыточности текстовых данных. Другим фактором, влияющим на степень избыточности является принятая система кодирования. Примером систем кодирования могут быть обычные языки общения, которые являются ни чем другим, как системами кодирования понятий и идей для высказывания мыслей. Так, установлено, что кодирование текстовых данных с помощью средств русского языка дает в среднем избыточность на 20—25% большую чем кодирование аналогичных данных средствами английского языка.
Для человека избыточность данных часто связана с качеством информации, поскольку избыточность, как правило, улучшает понятность и восприятие информации. Однако, когда речь идет о хранении и передаче информации средствами компьютерной техники, то избыточность играет отрицательную роль, поскольку она приводит к возрастанию стоимости хранения и передачи информации. Особенно актуальной эта проблема стает в случае обработки огромных объемов информации при незначительных объемах носителей данных. В связи с этим, постоянно возникает проблема уменьшения избыточности или сжатия данных. Если методы сжатия данных применяются к готовым файлам, то часто вместо термина "сжатие данных" употребляют термин "архивация данных", сжатый вариант данных называют архивом, а программные средства, которые реализуют методы сжатия называются архиваторами.
В зависимости от того, в каком объекте размещены данные, подлежащие сжатию различают:
1.
Сжатие (архивация) файлов: используется для уменьшения размеров файлов при подготовке их к передаче каналами связи или к транспортированию на внешних носителях маленькой емкости;
2.
Сжатие (архивация) папок: используется как средство уменьшения объема папок перед долгим хранением, например, при резервном копировании;
3.
Сжатие (уплотнение) дисков: используется для повышения эффективности использования дискового просторную путем сжатия данных при записи их на носителе информации (как правило, средствами операционной системы).
Существует много практических алгоритмов сжатия данных, но все они базируются на трех теоретических способах уменьшения избыточности данных. Первый способ состоит в изменении содержимого данных, второй — в изменении структуры данных, а третий — в одновременном изменении как структуры, так и содержимого данных.
Если при сжатии данных происходит изменение их содержимого, то метод сжатия называется
необратимым, то есть при восстановлении (разархивировании) данных из архива не происходит полное восстановление информации. Такие методы часто называются методами сжатия с регулированными потерями информации. Понятно, что эти методы можно применять только для таких типов данных, для которых потеря части содержимого не приводит к существенному искажению информации. К таким типам данных относятся видео— и аудиоданные, а также графические данные. Методы сжатия с регулированными потерями информации обеспечивают значительно большую степень сжатия, но их нельзя применять к текстовым данным. Примерами форматов сжатия с потерями информации могут быть:
• JPEG — для графических данных;
• MPG — для для видеоданных;
• MP3 — для аудиоданных.
Если при сжатии данных происходит только изменение структуры данных, то метод сжатия называется
1   2   3   4