Файл: Диалектическое единство данных и методов в информационном процессе.pdf

Документальная информация представляется в графическом или буквенно цифровом виде на бумаге, а также в электронном виде на магнитных и других носителях.

Речевая информация возникает в ходе ведения разговоров, а также при

работе систем звукоусиления и звуковоспроизведения. Носителем речевой

информации являются звуковые колебания в диапазоне частот от 200...300 Гц до 4...6 кГц. При кодировании звук подвергается дискретизации и квантованию. При дискретизации изменяющаяся во времени величина (сигнал) замеряется с заданной частотой (частотой дискретизации), т.е. сигнал разбивается по временной составляющей. Квантование же приводит сигнал к заданным значениям, т.е. разбивает по уровню сигнала. Сигнал, к которому применены дискретизация и квантование, называется цифровым.

Качество кодирования зависит от количества измерений уровня сигнала в

единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

При оцифровке сигнала уровень квантования называют также глубиной дискретизации или битностью. Глубина дискретизации измеряется в битах и обозначает количество битов, выражающих амплитуду сигнала. Чем больше глубина дискретизации, тем точнее цифровой сигнал соответствует аналоговому сигналу.

Телекоммуникационная информация циркулирует в технических средствах обработки и хранения информации, а также в каналах связи при ее передаче. Носителем информации при ее обработке техническими средствами и передаче по проводным каналам связи является электрический ток, а при передаче по радио- и оптическому каналам – электромагнитные волны.

Источник информации может вырабатывать непрерывное сообщение

(сигнал), в этом случае информация называется непрерывной. Например,

сигналы, передаваемые по радио и телевидению, а также используемые в

магнитной записи, имеют форму непрерывных, быстро изменяющихся во

зависимостей. Такие сигналы называются непрерывными, или аналоговыми сигналами. В противоположность этому в телеграфии и вычислительной технике сигналы имеют импульсную форму и называются дискретными сигналами.

Сравнивая непрерывную и дискретную формы представления информации,

нетрудно заметить, что при использовании непрерывной формы для создания вычислительной машины потребуется меньшее число устройств (каждая величина представляется одним, а не несколькими сигналами), но эти устройства будут сложнее (они должны различать значительно большее число состояний сигнала).

Информация, циркулирующая в обществе, требует специальных средств и методов обработки, хранения и использования. Сформировались новые научные дисциплины – кибернетика, бионика, робототехника и другие, имеющие своей целью изучение закономерностей информационных процессов.

Не менее сложным является вопрос «как измерить информацию?». На

данный момент выработано три подхода к измерению информации.

I подход – неизмеряемость информации в быту (информация как новизна). Представьте, что вы получили какое-то сообщение, например прочитали статью в любимом журнале. В этом сообщении содержится какое-то количество информации. Как оценить, сколько информации вы получили? Другими словами, как измерить информацию? Можно ли сказать, что чем больше статья, тем больше информации она содержит?

Разные люди, получившие одно и то же сообщение, по-разному оценивают его информационную ёмкость, то есть количество информации, содержащееся в нем. Это происходит оттого, что знания людей о событиях, явлениях, о которых идет речь в сообщении, до получения сообщения были различными. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, могут сказать, что информации не получили вовсе. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя.

В таком случае, количество информации в одном и том же сообщении

должно определяться отдельно для каждого получателя, то есть иметь субъективный характер. Но субъективные вещи не поддаются сравнению и

анализу, для их измерения трудно выбрать одну общую единицу измерения.

Таким образом, с точки зрения информации как новизны мы не можем однозначно и объективно оценить количество информации, содержащейся даже в простом сообщении. Что же тогда говорить об измерении количества

информации, содержащейся в научном открытии, новом музыкальном стиле, новой теории общественного развития.

Поэтому, когда информация рассматривается как новизна сообщения для получателя, вопрос об измерении количества информации обычно не ставится, но можно оценить содержательность информации, и здесь нам приходит на помощь так называемый семантический подход. Для измерения смыслового содержания информации, т. е. ее количества насемантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие «тезаурус пользователя».

Тезаурус – это совокупность сведений, которыми располагает пользователь

или система. Максимальное количество семантической информации Iс потребитель получает при согласовании ее смыслового содержания со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее неизвестные сведения. С семантической мерой количества информации связан коэффициент содержательности С (1), определяемый как отношение количества семантической информации к общему объему данных.

II подход – объемный: измерение информации в технике (информация как сообщения в форме знаков или сигналов, хранимые, перерабатываемые и обрабатываемые с помощью технических устройств). В технике, где информацией считается любая хранящаяся, обрабатываемая или передаваемая последовательность знаков, сигналов, часто используют простой способ определения количества информации, который может быть назван объемным или синтаксическим. Он основан на подсчете числа символов в сообщении, то есть связан только с длиной сообщения и не учитывает его содержания.

В вычислительной технике применяются две стандартные единицы

измерения информации: бит (англ. binary digit – двоичная цифра) и байт (byte). Поскольку компьютер предназначен для обработки больших объемов информации, то принято использовать производные единицы – Кбайт (Кб), Мбайт (Мб), Гбайт (Гб). 1 Кбайт равен 210 = 1024 байта. Аналогично, 1 Мб = 210 Кб = 1024 Кб = 220 байтов = 1 048 576 байтов. 1 Гб = 210 Мб = 1024 Мб = 220 Кб = 230 байтов = 1 073 741 824 байта.

Для представления текстовой (символьной) информации в компьютере используется алфавит, состоящий из 256 символов (мощность алфавита – количество символов в алфавите). 1 байт равен 8 битам, т. е. 8 двоичным разрядам. Количество различных однобайтовых двоичных кодов 00000000,

00000001, 00000010,..., 00110010,..., 11111111) равно 28 = 256. Этими кодами можно представить и 256 различных чисел, например, числа 0, 1, 2, 3,..., 255. Максимальное число, которое можно представить однобайтовым двоичным кодом «11111111», равно 255. Для представления чисел в памяти компьютера используются два формата: с фиксированной точкой и с плавающей точкой. В формате с фиксированной точкой представляются только целые числа, в формате с плавающей точкой вещественные числа (целые и дробные). Множество целых чисел, которое можно представить в компьютере, ограничено. Диапазон значений зависит от размера ячеек, используемых для их хранения. В k-разрядной ячейке может храниться 2k различных значений целых чисел. Например, в 16-разрядной ячейке может храниться 216 = 65536 различных значений.

Графическая информация на экране дисплея представляется в виде изображения, которое формируется из точек (пикселей). В современных компьютерах и сотовых телефонах разрешающая способность (количество точек на экране дисплея), а также количество цветов зависят от видеоадаптера. Цветные изображения могут иметь различные режимы: 16 цветов, 256 цветов, 1024 цвета, 65536 цветов (high color), 16777216 цветов (true color). Разрешающая способность экрана – это размер сетки растра (растр – это прямоугольная сетка пикселей на экране), задаваемого в виде произведения M×L, где М – число точек по горизонтали, L – число точек по вертикали. Число цветов графического файла, т. е. файла, хранящего графическое изображение, определяется формулой K = 2N, где К – число цветов, воспроизводимых на экране, и N – число бит, отводимых в видеопамяти под каждый пиксель (битовая глубина). Размер такого файла

определяется формулой V=M×L×N. Например, черно-белое изображение на экране с разрешением 640×480 будет занимать 640×480×1 битов памяти (N=1, т. е. 1 бит на пиксель), т. е. 307200 бит или 38400 байт. В реальности в графических документах кроме описания цвета точек присутствует ещё и служебно- дополнительная информация (о формате записи, авторских правах, способах сжатия и пр.).

Цветное изображение формируется за счёт смешивания трёх базовых цветов: красного, зелёного и синего. Такая цветовая модель называется RGB-моделью. При глубине цвета 24 бита под каждый цвет отводится 8 битов. Код 00000000 соответствует ситуации, когда интенсивность отдельного цвета нулевая, а при коде 255 (11111111) интенсивность максимальна. Белый цвет на экране имеет код 255.255.255.

III подход – вероятностный: измерение информации в теории информации (информация как снятая неопределенность). Получение информации (её увеличение) означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределенности. Таким образом, с точки зрения на информацию как на снятую неопределенность количество информации зависит от вероятности ее получения.

Причем чем больше вероятность события, тем меньше количество информации в сообщении о таком событии. Иными словами, количество информации в сообщении о каком-то событии зависит от вероятности свершения данного события. Количеством информации называют числовую характеристику сигнала, отражающую ту степень неопределенности (неполноту знаний), которая исчезает после получения сообщения в виде данного сигнала. Эту меру неопределенности в теории информации называют энтропией. Случайность любого события заключается в том, что реализация того или иного исхода имеет некоторую степень неопределенности. Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является некоторая функция H(α).

После получения некоторого сообщения β получатель приобрел дополнительную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения β)

неопределенность состояния системы стала Hβ(α).

Тогда количество информации Iβ(α) о системе, полученной в сообщении β, определится как Iβ(α)=H(α)-Hβ(α), т. е. количество информации измеряется уменьшением неопределенности состояния системы. Иными словами, энтропия системы H(α) может рассматриваться как мера недостающей информации.

В частном случае для системы, имеющей N возможных состояний,

количество информации может быть вычислено по формуле К.Э. Шеннона.

Более простой подход к оценке сообщений был предложен еще в 1928 году

Р. Хартли. Наиболее просто определить количество информации в случае, когда все исходы события могут реализоваться с равной долей вероятности.

Таким образом, за единицу количества информации принимают выбор

одного из двух равновероятных сообщений («да» или «нет», «1» или «0»).