ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 10.01.2024
Просмотров: 1132
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Это далеко не полный перечень возможностей программы для записи звука – Audacity. Как видите, программа для записи звука Audacity, имеет такой набор функций и инструментов, что ее можно сравнить с профессиональной программой для работы с аудио.
Видеоинформация
Самым ранним методом передачи видеосигналов является аналоговый метод. Одним из первых видеоформатов на основе этого принципа стал композитный видеосигнал. Композитное аналоговое видео комбинирует все видеокомпоненты (яркость, цвет, синхронизацию и т. п.) в один сигнал. Из–за объединения этих элементов в одном сигнале качество композитного видео далеко от совершенства. В результате мы имеем неточную передачу цвета, недостаточно "чистую" картинку и другие факторы потери качества.
Композитное видео быстро уступило дорогу компонентному видео, в котором различные видеокомпоненты представлены как независимые сигналы. Дальнейшие усовершенствования этого формата привели к появлению различные его вариаций: S–Video, RGB, Y, Pb, Pr и др.
Тем не менее, все вышеперечисленные форматы остаются аналоговыми по своей сути, и, следовательно, обладают одним существенным недостатком: при копировании дубль всегда уступает по качеству оригиналу. Потеря качества при копировании видеоматериала аналогична фотокопированию, когда копия никогда не бывает такой же четкой и яркой, как оригинал.
Цифровое видео
Недостатки, присущие аналоговому способу воспроизведения видео, в конце концов привели к разработке цифрового видеоформата. На смену аналоговому видео пришло цифровое. В области профессионального видео применяется несколько цифровых видеоформатов: D1, D2, Digital BetaCam и др. В отличие от аналогового видео, качество которого падает при копировании, каждая копия цифрового видео идентична оригиналу.
Хотя современный видеоряд базируется на цифровой основе, практически все цифровые видеоформаты до сих пор в качестве носителя исходного сигнала используют пленку с последовательным доступом. Поэтому большинству профессионалов в области видео все еще привычней работать с пленкой, чем с компьютером.
Конечно, пленка в качестве источника данных все еще остается более предпочтительной, чем жесткий диск компьютера, поскольку вмещает значительно больший объем данных. Но зато для цифрового видеомонтажа использование компьютеров дает ряд существенных преимуществ: не только обеспечивает прямой доступ к любому видеофрагменту (что невозможно при работе с пленкой, поскольку к необходимым участкам можно добраться лишь последовательно просматривая видеоматериал), но и предполагает широкие возможности обработки изображения (редактирование, сжатие).
Это достаточно веские причины для перехода видеопроизводства с традиционного оборудования на компьютерное.
Компьютерное цифровое видео представляет собой последовательность цифровых изображений и связанный с ними звук. Элементы видео хранятся в цифровом формате.
Существует множество способов захвата, хранения и воспроизведения видео на компьютере. С появлением компьютерного цифрового видео стихийно стали возникать самые разнообразные форматы представления видеоданных, что поначалу привело к некоторой путанице и вызвало проблемы совместимости. Однако в последние годы благодаря усилиям Международной организации по стандартизации (ISO – International Standards Organisation) выработаны единые стандарты на форматы видеоданных, которые мы позже рассмотрим.
Основные характеристики цифрового видео
Цифровое видео характеризуется четырьмя основными факторами: частота кадра (Frame Rate), экранное разрешение (Spatial Resolution), глубина цвета (Color Resolution) и качество изображения (Image Quality).
Частота кадра (Frame Rate). Стандартная скорость воспроизведения видеосигнала – 30 кадров/с (для кино этот показатель составляет 24 кадра/с). Каждый кадр состоит из определенного количества строк, которые прорисовываются не последовательно, а через одну, в результате чего получается два полукадра, или так называемых "поля". Поэтому каждая секунда аналогового видеосигнала состоит из 60 полей (полукадров). Такой процесс называется interlaced видео.
Между тем монитор компьютера для прорисовки экрана использует метод "прогрессивного сканирования" (progressive scan), при котором строки кадра формируются последовательно, сверху вниз, а полный кадр прорисовывается 30 раз каждую секунду. Разумеется, подобный метод получил название non–interlaced видео. В этом заключается основное отличие между компьютерным и телевизионным методом формирования видеосигнала.
Глубина цвета (Color Resolution). Этот показатель является комплексным и определяет количество цветов, одновременно отображаемых на экране. Компьютеры обрабатывают цвет в RGB–формате (красный–зеленый–синий), в то время как видео использует и другие методы. Одна из наиболее распространенных моделей цветности для видеоформатов – YUV. Каждая из моделей RGB и YUV может быть представлена разными уровнями глубины цвета (максимального количества цветов).
Для цветовой модели RGB обычно характерны следующие режимы глубины цвета: 8 бит/пиксель (256 цветов), 16 бит/пиксель (65,535 цветов) и 24 бит/пиксель (16,7 млн. цветов). Для модели YUV применяются режимы: 7 бит/пиксель (4:1:1 или 4:2:2, примерно 2 млн. цветов), и 8 бит/пиксель (4:4:4, примерно 16 млн. цветов).
Экранное разрешение (Spatial Resolution). Еще одна характеристика – экранное разрешение, или, другими словами, количество точек, из которых состоит изображение на экране. Так как мониторы PC и Macintosh обычно рассчитаны на базовое разрешение в 640 на 480 точек (пикселей), многие считают, что такой формат является стандартным. К сожалению, это не так. Прямой связи между разрешением аналогового видео и компьютерного дисплея нет.
Стандартный аналоговый видеосигнал дает полноэкранное изображение без ограничений размера, так часто присущих компьютерному видео. Телевизионный стандарт NTSC (National Television Standards Committe), разработан Национальным комитетом по телевизионным стандартам США. Используемый в Северной Америке и Японии, он предусматривает разрешение 768 на 484. Стандарт PAL (Phase Alternative), распространенный в Европе, имеет несколько большее разрешение – 768 на 576 точек.
Поскольку разрешение аналогового и компьютерного видео различается, при преобразовании аналогового видео в цифровой формат приходится иногда масштабировать и уменьшать изображение, что приводит к некоторой потере качества.
Качество изображения (Image Quality). Последняя, и наиболее важная характеристика – это качество видеоизображения. Требования к качеству зависят от конкретной задачи. Иногда достаточно, чтобы картинка была размером в четверть экрана с палитрой из 256-ти цветов (8 бит), при скорости воспроизведения 15 кадров/с. В других случаях требуется полноэкранное видео (768 на 576) с палитрой в 16,7 млн. цветов (24 бит) и полной кадровой разверткой (24 или 30 кадров/с).
Преимущества цифровой передачи видеоданных
Кроме очевидных преимуществ формата, сам способ формирования цифрового изображения также несет в себе существенные преимущества. Цифровой сигнал не ослабляется при передаче на расстояние, как аналоговый сигнал. Поэтому если он принимается вообще, то принимается без искажений. Цифровой сигнал не подвержен помехам, характерным для работы нецифрового оборудования, таким как тени, «туман» или «снег». Передается же цифровой сигнал в компрессированном виде, что намного сужает требуемую полосу пропускания канала. В цифровом телевидении применяется схема компрессии MPEG-2 – та же, что и на DVD.
Любая компрессия – это компромисс. Самое высокое качество у некомпрессированного цифрового видео, но для этого необходимо передавать невероятное количество данных. Такую пропускную способность можно обеспечить только в локальной сети. Чтобы передавать цифровой сигнал по существующим каналам, изображение с разрешением примерно вчетверо выше по сравнению с обычным нецифровым компрессируется в соотношении 77:1.
«Чудо компрессии» позволяет не только передавать в эфир превосходное изображение. Благодаря запасу полосы пропускания, появляется возможность передавать цифровое аудио 7.1, то есть настоящий окутывающий звук (surround sound).
Важнейшим компонентом HDTV служит совсем крошечная деталь – скромный пиксель. В аналоговом телевидении элементы изображения, из которых состоит красная, зеленая и синяя компоненты, представляют собой вертикальные прямоугольники. В HDTV они квадратные, как на компьютерных мониторах, и более, чем в четверо меньше пикселов аналогового ТВ, так что мелкие детали получаются намного четче, что позволяет разглядеть каждую пору на коже кинозвезды.
2. Информационные кросс - технологии
К данному классу отнесены технологии пользователя, ориентированные на следующие (или аналогичные) виды преобразования информации:
• распознавания символов;
• звук-текст;
• текст-звук;
• автоматический перевод.
Оптическое распознавание символов (OCR)
Когда страница текста отсканирована в ПК, она представлена в виде состоящего из пикселей растрового изображения. Такой формат не воспринимается компьютером как текст, а как изображение текста и текстовые редакторы не способны к обработке подобных изображений. Чтобы превратить группы пикселей в доступные для редактирования символы и слова, изображение должно пройти сложный процесс, известный как оптическое распознавание символов (optical character recognition – OCR).
В то время как переход от символьной информации к графической (растровой) достаточно элементарен и без труда осуществляется, например при выводе текста на экран или печать, обратный переход (от печатного текста к текстовому файлу в машинном коде) весьма затруднителен. Именно в связи с этим для ввода информации в ЭВМ исстари использовались перфоленты, перфокарты и др. промежуточные носители, а не исходные «бумажные» документы, что было бы гораздо удобнее. «В защиту» перфокарт скажем здесь, что наиболее «продвинутые» устройства перфорации делали надпечатку на карте для проверки ее содержания.
Первые шаги в области оптического распознавания символов были предприняты в конце 50-х гг. XX в. Принципы распознавания, заложенные в то время, используются в большинстве систем OCR: сравнить изображение с имеющимися эталонами и выбрать наиболее подходящий.
В середине 70-х гг. была предложена технология для ввода информации в ЭВМ, заключающаяся в следующем:
-
исходный документ печатается на бланке с помощью пишущей машинки, оборудованной стилизованнымшрифтом (каждый символ комбинируется из ограниченного числа вертикальных, горизонтальных, наклонных черточек, подобно тому, как это делаем мы и сейчас, нанося на почтовый конверт цифры индекса);
-
полученный «машинный документ» считывается оптоэлектрическим устройством (собственно OCR), которое кодирует каждый символ и определяет его позицию на листе;
-
информация переносится в память ЭВМ, образуя электронный образ документа или документ во внутреннем представлении.
Очевидно, что по сравнению с перфолентами (перфокартами) OCR-документ лучше хотя бы тем, что он без особого труда может быть прочитан и проверен человеком и, вообще, представляет собой «твердую копию» соответствующего введенного документа. Было разработано несколько модификаций подобных шрифтов, разной степени «удобочитаемости» (OCR A (рис 1), OCR В (рис 2) и пр.).
Рис. 1. OCR – A
Рис. 2. OCR – B
Очевидно также, что считывающее устройство представляет собой сканер, хотя и специализированный(считывание стилизованных символов), но интеллектуальный(распознавание их).
OCR – технология в данном виде просуществовала недолго и в настоящее время приобрела следующий вид:
-
считывание исходного документа осуществляется универсальным сканером, осуществляющим создание растрового образа и запись его в оперативную память и/или в файл;
-
функции распознавания полностью возлагаются на программные продукты, которые, естественно, получили название OCR-software.
Исследования в этом направлении начались в конце 1950–х гг., и с тех пор технологии непрерывно совершенствовались. В 1970-х гг. и в начале 1980-х гг. программное обеспечение оптического распознавания символов все еще обладало очень ограниченными возможностями и могло работать только с некоторыми типами и размерами шрифтов. В настоящее время программное обеспечение оптического распознавания символов намного более интеллектуально и может распознать фактически все шрифты, даже при невысоком качестве изображения документа.
Основные методы оптического распознавания
Один из самых ранних методов оптического распознавания символов базировался на сопоставлении матриц или сравнении с образцом букв. Большинство шрифтов имеют формат Times, Courier или Helvetica и размер от 10 до 14 пунктов (точек). Программы оптического распознавания символов, которые используют метод сопоставления с образцом, имеют точечные рисунки для каждого символа каждого размера и шрифта.Сравнивая базу данных точечных рисунков с рисунками отсканированных символов, программа пытается их распознавать. Эта ранняя система успешно работала только с непропорциональными шрифтами (подобно Courier), где символы в тексте хорошо отделены друг от друга. Сложные документы с различными шрифтами оказываются уже вне возможностей таких программ.
Рис. 3. Разные подходы к распознаванию
Выделение признаков было следующим шагом в развитии оптического распознавания символов. При этом распознавание символов основывается на идентификации их универсальных особенностей, чтобы сделать распознавание символов независимым от шрифтов. Если бы все символы могли быть идентифицированы, используя правила, по которым элементы букв (например, окружности и линии) присоединяются друг к другу, то индивидуальные символы могли быть описаны независимо от их шрифта. Например: символ «а» может быть представлен как состоящий из окружности в центре снизу, прямой линии справа и дуги окружности сверху в центре (рис. 3).Если отсканированный символ имеет эти особенности, он может быть правильно идентифицирован как символ «а» программой оптического распознавания.
Выделение признаков было шагом вперед сравнительно с соответствием матриц, но практические результаты оказались весьма чувствительными к качеству печати. Дополнительные пометки на странице или пятна на бумаге существенно снижали точность обработки. Устранение такого «шума» само по себе стало целой областью исследований, пытающейся определить, какие биты печати не являются частью индивидуальных символов. Если шум идентифицирован, достоверные символьные фрагменты могут тогда быть объединены в наиболее вероятные формы символа.
Некоторые программы сначала используют сопоставление с образцом и/или метод выделения признаков для того, чтобы распознать столько символов, сколько возможно, а затем уточняют результат, используя грамматическую проверку правильности написания для восстановления нераспознанных символов. Например, если программа оптического распознавания символов неспособна распознать символ «е» в слове «th
ir», программа проверки грамматики может решить, что отсутствующий символ – «е».
исходный документ печатается на бланке с помощью пишущей машинки, оборудованной стилизованнымшрифтом (каждый символ комбинируется из ограниченного числа вертикальных, горизонтальных, наклонных черточек, подобно тому, как это делаем мы и сейчас, нанося на почтовый конверт цифры индекса);
полученный «машинный документ» считывается оптоэлектрическим устройством (собственно OCR), которое кодирует каждый символ и определяет его позицию на листе;
информация переносится в память ЭВМ, образуя электронный образ документа или документ во внутреннем представлении.
считывание исходного документа осуществляется универсальным сканером, осуществляющим создание растрового образа и запись его в оперативную память и/или в файл;
функции распознавания полностью возлагаются на программные продукты, которые, естественно, получили название OCR-software.
Современные технологии оптического распознавания намного совершеннее, чем более ранние методы. Вместо того чтобы только идентифицировать индивидуальные символы, современные методы способны идентифицировать целые слова. Эту технологию, предложенную Caere, называют прогнозирующим оптическим распознаванием слов (Predictive Optical Word Recognition – POWR).
Используя более высокие уровни контекстного анализа, метод POWR способен устранить проблемы, вызванные шумом. Компьютер анализирует тысячи или миллионы различных способов, которыми точки изображения могут быть собраны в символы слова. Каждой возможной интерпретации приписывается некоторая вероятность, после чего используются нейронные сети и прогнозирующие методы моделирования, заимствованные от исследований в области искусственного интеллекта. Они предполагают использование «экспертов» – алгоритмов, разработанных специалистами в различных областях распознавания символов. Один «эксперт» может знать многое о начертаниях шрифта, другой – о словарной информации, третий – об ухудшении качества от «зашумленности» и пр. На каждой стадии исследования привлекается новый набор «экспертов» с учетом близости их «областей знаний» к специфической ситуации и статистики успеха в подобных ситуациях.
Окончательный итог – то, что система POWR способна идентифицировать слова способом, который близко напоминает человеческое визуальное распознавание. Практически, методика значительно улучшает точность распознавания слов во всех типах документа. Все возможные интерпретации слова оцениваются, комбинируя все источники доказательства, от информации пикселя нижнего уровня до контекстных особенностей высокого уровня, в результате чего выбирается самая вероятная интерпретация.
ТехнологииFinereader
Хотя системы оптического распознавания символов существовали в течение долгого времени, их выгоды только сейчас начали по достоинству оценивать. Первые разработки были чрезвычайно дорогостоящими (в терминах программного обеспечения и оборудования), неточны и трудны для использования. За несколько последних лет системы оптического распознавания полностью преобразились. Современное программное обеспечение распознавания символов очень удобно в использовании, обладает высокой точностью и находится на пути к распространению на все виды рабочих сред в массовом масштабе.
Типичным представителем данного семейства программ является ABBYY FineReader, технологический процесс которого включает следующие шаги (рис. 4):