Файл: В юридической деятельности.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 10.01.2024

Просмотров: 1130

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

СОДЕРЖАНИЕ

1. Понятие информационных технологий. Терминология и объект информатики.

2. Количественная мера информации.

3. Понятие энтропии.

4. Современные информационные технологии в деятельности МВД России.

ОСНОВНЫЕ ВОПРОСЫ:

1. Информационные процессы и их особенности.

2. Кодирование информации.

Преимущества цифровой передачи видеоданныхКроме очевидных преимуществ формата, сам способ формирования цифрового изображения также несет в себе существенные преимущества. Цифровой сигнал не ослабляется при передаче на расстояние, как аналоговый сигнал. Поэтому если он принимается вообще, то принимается без искажений. Цифровой сигнал не подвержен помехам, характерным для работы нецифрового оборудования, таким как тени, «туман» или «снег». Передается же цифровой сигнал в компрессированном виде, что намного сужает требуемую полосу пропускания канала. В цифровом телевидении применяется схема компрессии MPEG-2 – та же, что и на DVD.Любая компрессия – это компромисс. Самое высокое качество у некомпрессированного цифрового видео, но для этого необходимо передавать невероятное количество данных. Такую пропускную способность можно обеспечить только в локальной сети. Чтобы передавать цифровой сигнал по существующим каналам, изображение с разрешением примерно вчетверо выше по сравнению с обычным нецифровым компрессируется в соотношении 77:1. «Чудо компрессии» позволяет не только передавать в эфир превосходное изображение. Благодаря запасу полосы пропускания, появляется возможность передавать цифровое аудио 7.1, то есть настоящий окутывающий звук (surround sound).Важнейшим компонентом HDTV служит совсем крошечная деталь – скромный пиксель. В аналоговом телевидении элементы изображения, из которых состоит красная, зеленая и синяя компоненты, представляют собой вертикальные прямоугольники. В HDTV они квадратные, как на компьютерных мониторах, и более, чем в четверо меньше пикселов аналогового ТВ, так что мелкие детали получаются намного четче, что позволяет разглядеть каждую пору на коже кинозвезды. 2. Информационные кросс - технологииК данному классу отнесены технологии пользователя, ориентированные на следующие (или аналогичные) виды преобразования информации:• распознавания символов;• звук-текст;• текст-звук;• автоматический перевод. Оптическое распознавание символов (OCR)Когда страница текста отсканирована в ПК, она представлена в виде состоящего из пикселей растрового изображения. Такой формат не воспринимается компьютером как текст, а как изображение текста и текстовые редакторы не способны к обработке подобных изображений. Чтобы превра­тить группы пикселей в доступные для редактирования символы и слова, изображение должно пройти сложный процесс, известный как оптическое распознавание символов (optical character recognition – OCR).В то время как переход от символьной информации к графической (растровой) достаточно элементарен и без труда осуществляется, например при выводе текста на экран или печать, обратный переход (от печатного текста к текстовому файлу в машинном коде) весьма затруднителен. Именно в связи с этим для ввода информации в ЭВМ исстари использовались перфоленты, перфокарты и др. промежуточные носители, а не исходные «бумажные» документы, что было бы гораздо удобнее. «В защиту» перфокарт скажем здесь, что наиболее «продвинутые» устройства перфорации делали надпечатку на карте для проверки ее содержания.Первые шаги в области оптического распознавания символов были предприняты в конце 50-х гг. XX в. Принципы распознавания, заложенные в то время, используются в большинстве систем OCR: сравнить изображение с имеющимися эталонами и выбрать наиболее подходящий.В середине 70-х гг. была предложена технология для ввода информации в ЭВМ, заключающаяся в следующем: исходный документ печатается на бланке с помощью пишущей машинки, оборудованной стилизованнымшрифтом (каждый символ комбинируется из ограниченного числа вертикальных, горизонтальных, наклонных черточек, подобно тому, как это делаем мы и сейчас, нанося на почтовый конверт цифры индекса); полученный «машинный документ» считывается оптоэлектрическим устройством (собственно OCR), которое кодирует каждый символ и определяет его позицию на листе; информация переносится в память ЭВМ, образуя электронный образ документа или документ во внутреннем представлении. Очевидно, что по сравнению с перфолентами (перфокартами) OCR-документ лучше хотя бы тем, что он без особого труда может быть прочитан и проверен человеком и, вообще, представляет собой «твердую копию» соответствующего введенного документа. Было разработано несколько модификаций подобных шрифтов, разной степени «удобочитаемости» (OCR A (рис 1), OCR В (рис 2) и пр.). Рис. 1. OCR – A Рис. 2. OCR – BОчевидно также, что считывающее устройство представляет собой сканер, хотя и специализированный(считывание стилизованных символов), но интеллектуальный(распознавание их).OCR – технология в данном виде просуществовала недолго и в настоящее время приобрела следующий вид: считывание исходного документа осуществляется универсальным сканером, осуществляющим создание растрового образа и запись его в оперативную память и/или в файл; функции распознавания полностью возлагаются на программные продукты, которые, естественно, получили название OCR-software. Исследования в этом направлении начались в конце 1950–х гг., и с тех пор технологии непрерывно совершенствовались. В 1970-х гг. и в начале 1980-х гг. программное обеспечение оптического распознавания символов все еще обладало очень ограниченными возможностями и могло работать только с некоторыми типами и размерами шрифтов. В настоящее время программное обеспечение оптического распознавания символов намного более интеллектуально и может распознать фактически все шрифты, даже при невысоком качестве изображения документа.Основные методы оптического распознаванияОдин из самых ранних методов оптического распознавания символов базировался на сопоставлении матриц или сравнении с образцом букв. Большинство шрифтов имеют формат Times, Courier или Helvetica и размер от 10 до 14 пунктов (точек). Программы оптического распознавания символов, которые используют метод сопоставления с образцом, имеют точечные рисунки для каждого символа каждого размера и шрифта.Сравнивая базу данных точечных рисунков с рисунками отсканированных символов, программа пытается их распознавать. Эта ранняя система успешно работала только с непропорциональными шрифтами (подобно Courier), где символы в тексте хорошо отделены друг от друга. Сложные документы с различными шрифтами оказываются уже вне возможностей таких программ. Рис. 3. Разные подходы к распознаваниюВыделение признаков было следующим шагом в развитии оптического распознавания символов. При этом распознавание символов основывается на идентификации их универсальных особенностей, чтобы сделать распознавание символов независимым от шрифтов. Если бы все символы могли быть идентифицированы, используя правила, по которым элементы букв (например, окружности и линии) присоединяются друг к другу, то индивидуальные символы могли быть описаны незави­симо от их шрифта. Например: символ «а» может быть представлен как состоящий из окружности в центре снизу, прямой линии справа и дуги окружности сверху в центре (рис. 3).Если отсканированный символ имеет эти особенности, он может быть правильно идентифицирован как символ «а» программой оптического распознавания.Выделение признаков было шагом вперед сравнительно с соответствием матриц, но практические результаты оказались весьма чувствительными к качеству печати. Дополнительные пометки на странице или пятна на бумаге существенно снижали точность обработки. Устранение такого «шума» само по себе стало целой областью исследований, пытающейся определить, какие биты печати не являются частью индивидуальных символов. Если шум идентифицирован, достоверные символьные фрагменты могут тогда быть объединены в наиболее вероятные формы символа.Некоторые программы сначала используют сопоставление с образцом и/или метод выделения признаков для того, чтобы распознать столько символов, сколько возможно, а затем уточняют результат, используя грамматическую проверку правильности написания для восстановления нераспознанных символов. Например, если программа оптического распознавания символов неспособна распознать символ «е» в слове «th


Поскольку случайная величина I может принимать множество значений в зависимости от того или иного исхода события, то для ее числовой характеристики (количества информации I в произвольном сообщении об исходе случайного события) принимается ее математическое ожидание или среднее значение:

(2)

подставляя формулу (1) в формулу (2) получим:

(3)

Данная формула была предложена К. Шенноном для определения количества информации в сообщении об исходе случайного события.

Для определения количества информации, содержащемся в сообщении об исходе случайного события в случае, когда все исходы равновероятны, т.е. р1= р2=…= рn формула (3) принимает вид:

I=log2 n (4)

Эта формула была выведена в 1928 г. американским инженером Р. Хартли и носит его имя.

В качестве единицы количества информации, подсчитываемой по формуле (4), принят 1 бит. Бит – минимально возможное количество информации содержится в сообщении об исходе случайного события с двумя равновероятными исходами. Так, полагая в формуле (4) n=2 и р1=р2=0,5 получим:

I=log2 2=1 (бит).

Проиллюстрируем это на следующих примерах.

Бросание одной монеты. До момента бросания монеты имеется неопределенность исхода данного события, смысл которой заключается в том, что потенциально возможны два варианта исходов бросания, т.е. n=2 (табл. 2):

Таблица 2

Вариант

Исход бросания

Код сообщения

1

«орел»

1

2

«решка»

0


Закодированное информационное сообщение представляет собой последовательность из одного двоичного символа (табл. 2). В этом случае любое из этих двух сообщений (0 или 1) уменьшает неопределенность ровно в два раза. Применяя для данного примера формулу Хартли, получим:

I=log2 2=1 (бит).

Таким образом, сообщение об исходе бросания одной монеты несет в себе количество информации равное 1 бит. Иными словами, 1 бит есть та минимальная порция информации, которая уменьшает исходную неопределенность в два раза в линейном масштабе.

Бросание одновременно трех монет
. До момента бросания монет имеется неопределенность исхода данного события, смысл которой заключается в том, что потенциально возможны восемь вариантов исходов бросания, т.е. n=8 (табл. 3).

В этом случае закодированное информационное сообщение представляет собой последовательность из трех двоичных символов (табл. 3). Применяя для рассматриваемого примера формулу (4), получим:

I=log2 8=3 (бит)

Таблица 3

Вариант

1-ая монета

2-ая монета

3-я монета

Код

сообщения

1

«орел»

«орел»

«орел»

111

2

«решка»

«решка»

«решка»

000

3

«орел»

«решка»

«решка»

100

4

«орел»

«орел»

«решка»

110

5

«орел»

«решка»

«орел»

101

6

«решка»

«орел»

«орел»

011

7

«решка»

«решка»

«орел»

001

8

«решка»

«орел»

«решка»

010


Таким образом, любое сообщение об исходе бросания трех монет несет в себе количество информации, равное трем битам, т.е. уменьшает неопределенность об исходе данного события ровно в восемь раз (в линейном масштабе).

Интересно, что согласно классической теории информации, сообщение об исходе бросания одновременно трех монет несет в себе в три раза больше информации (в логарифмическом масштабе), чем сообщение об исходе бросания одной монеты (3 бита и 1 бит).

Следует отметить, что в компьютерной технике при передаче сообщений по линиям связи в качестве случайных событий выступают передаваемые последовательности нулей и единиц, представляющие собой закодированные (т.е. представленные в цифровой форме) текстовые, числовые, графические, звуковые и другие сообщения. Данные последовательности имеют различную (случайную) длину и различный (случайный) характер чередования нулей и единиц.



Если под исходом случайного события понимать конкретный вид последовательности нулей и единиц в передаваемом сообщении, то данные исходы не являются равновероятными и, следовательно, для определения количества содержащейся в них информации нельзя использовать формулу Хартли. Как следствие, в этом случае нельзя использовать в качестве единицы информации 1 бит.

Таким образом, единица измерения 1 бит малопригодна на практике для определения количества информации, содержащейся в сообщении в классическом понимании этого термина (мера уменьшения неопределенности). Гораздо чаще, если не всегда, в компьютерной технике бит выступает в качестве элементарной единицы количества или объема хранимой (или передаваемой) информации безотносительно к ее содержательному смыслу.

Количество информации в 1 бит является слишком малой величиной, поэтому наряду с единицей измерения информации 1 бит, используется более крупные единицы:

1байт=23 бит=8 бит.

1 килобайт (1 Кбайт) = 210 байт = 1024 байт,

1 мегабайт (1 Мбайт) = 210 Кбайт = 1024 Кбайт,

1 гигабайт (1 Гбайт) = 210 Мбайт=1024 Мбайт,

1 терабайт (1 Тбайт) = 210 Гбайт (1024 Гбайт),

1 петабайт (1 Пбайт) = 210 Тбайт (1024 Тбайт).

В компьютерной и телекоммуникационной технике в битах, байтах, килобайтах, мегабайтах и т.д. измеряется также потенциальная информационнаяемкость оперативной памяти и внешних запоминающих устройств, предназначенных для хранения данных (жесткие диски, дискеты, CD-ROM и т.д.).

3. Понятие энтропии

В 1948 году, исследуя проблему рациональной передачи информации через зашумленный коммуникационный канал, Клод Шеннон предложил революционный вероятностный подход к пониманию коммуникаций и создал первую, истинно математическую, теорию энтропии. Его сенсационные идеи быстро послужили основой разработки двух основных направлений: теории информации, которая использует понятие вероятности и эргодическую теорию для изучения статистических характеристик данных и коммуникационных систем, и теории кодирования, в которой используются главным образом алгебраические и геометрические инструменты для разработки эффективных шифров.

Понятие энтропии, как меры случайности, введено Шенноном в его статье «A Mathematical Theory of Communication», опубликованной в двух частях в Bell System Technical Journal в 1948 году.

Энтропия (от греч. поворот, превращение) – понятие, впервые возникшее в термодинамике как мера необратимого рассеяния энергии; широко применяется в других областях: в статистической механике – как мера вероятности осуществления состояния системы; в теории информации – как мера неопределенности сообщений; в теории вероятностей – как мера неопределенности опыта, испытания с различными исходами; ее альтернативные трактовки имеют глубокую внутреннюю связь: например из вероятностных представлений об информации можно вывести все важнейшие положения статистической механики.


В термодинамике понятие энтропии было введено немецким физиком Р. Клаузисом (1865), когда он показал, что процесс превращения теплоты в работу подчиняется закономерности – второму началу термодинамики, которое формулируется строго математически, если ввести функцию состояния системы – энтропию. Клаузис также показал важность понятия энтропии для анализа необратимых (неравновесных) процессов, если отклонения от термодинамики равновесия невелики и можно ввести представление о локальном термодинамическом равновесии в малых, но еще макроскопических объемах. В целом энтропия неравновесной системы равна сумме энтропий ее частей, находящихся в локальном равновесии.

Статистическая механика связывает энтропию с вероятностью осуществления макроскопического состояния системы знаменитым соотношением Больцмана «энтропия – вероятность»

(5)

где W – термодинамическая вероятность осуществления данного состояния (число способов реализации состояния), а kB – постоянная Больцмана.

В отличие от термодинамики статистическая механика рассматривает специальный класс процессов – флуктуации, при которых система переходит из более вероятных состояний в менее вероятные и вследствие этого ее энтропия уменьшается. Наличие флуктуаций показывает, что закон возрастания энтропии выполняется только статистически: в среднем для большого промежутка времени.

Понятие энтропии распределения в теории вероятностей математически совпадает с понятием информационной энтропии. Из вероятностной трактовки энтропии выводятся основные распределения статистической механики: каноническое распределение Гиббса, которое соответствует максимальному значению информационной энтропии при заданной средней энергии; и большое каноническое распределение Гиббса – при заданной средней энергии и количестве частиц в системе.

Энтропия в теории информации – мера хаотичности информации, неопределенность появления какого-либо символа первичного алфавита. При отсутствии информационных потерь энтропия численно равна количеству информации на символ передаваемого сообщения.

Концепции информации и энтропии имеют глубокие связи друг с другом, но, несмотря на это, разработка теорий в статистической механике и теории информации заняла много лет, чтобы сделать их соответствующими друг другу.

Энтропия независимых случайных событий x
с n возможными состояниями (от 1 до n) рассчитывается по формуле:

(6)

Эта величина также называется средней энтропией сообщения. Величина называется частной энтропией, характеризующей только i-e состояние.

Таким образом, энтропия события x является суммой с противоположным знаком всех произведений относительных частот появления события i, умноженных на их же двоичные логарифмы. Это определение для дискретных случайных событий можно расширить для функции распределения вероятностей.

Шеннон вывел это определение энтропии из следующих предположений:

мера должна быть непрерывной; т.е. изменение значения величины вероятности на малую величину должно вызывать малое результирующее изменение энтропии;

в случае, когда все варианты равновероятны, увеличение количества вариантов должно всегда увеличивать полную энтропию;

должна существовать возможность сделать выбор в два шага, в которых энтропия конечного результата должна будет являться суммой энтропий промежуточных результатов.

Шеннон показал, что любое определение энтропии, удовлетворяющее этим предположениям, должно быть в форме:

(7)

где K – константа (в действительности нужна только для выбора единиц измерения).

Шеннон определил, что измерение энтропии ( ), применяемое к источнику информации, может определить требования к минимальной пропускной способности канала, требуемой для надежной передачи информации в виде закодированных двоичных чисел. Для вывода формулы Шеннона необходимо вычислить математическое ожидания «количества информации», содержащегося в цифре из источника информации. Мера энтропии Шеннона выражает неуверенность реализации случайной переменной. Таким образом, энтропия является разницей между информацией, содержащейся в сообщении, и той частью информации, которая точно известна (или хорошо предсказуема) в сообщении. Примером этого является избыточность языка – имеются явные статистические закономерности в появлении букв, пар последовательных букв, троек и т.д.