ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 10.01.2024
Просмотров: 1136
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
-
сканирование исходного документа (страницы); -
разметку областей (ручную или автоматическую), требующих различные виды обработки (страницы разворота книги, таблицы, рисунки, колонки текста и пр.); -
распознавание – создание и вывод на экран текстового файла (с вставленными рисунками и таблицами, если это необходимо); -
контроль правильности (ручной, автоматический, полуавтоматический); -
вывод информации в выходной файл в заданном формате (.DOC или .RTF для Word, .XSL для Excel и пр.).
Данные, полученные на каждом этапе (изображение, текстовый файл), сохраняются под «общей вывеской» пакета(страницы с номером), что позволяет в любой момент вернуться и повторить разметку, распознавание и пр.
Если нет необходимости сохранять цветовую информацию оригинала документа (например, для последующей обработки системами оптического распознавания символов), изображение лучше всего сканировать в режиме grayscale (полутоновое изображение). При этом файл будет занимать одну треть объема сравнительно со сканированием в цвете RGB. Можно использовать также режим штриховой графики (line art), однако при этом часто теряются подробности, существенные для точности последующего процесса распознавания символов.
Рассмотрим основные принципы функционирования программного продукта.
Системы распознавания речи
Теоретически машинное распознавание речи, т. е. ее автоматическое представление в виде текста, является крайней степенью сжатия речевого сигнала.
Процесс распознавания речи (STT – speech-to-text) в последние годы сделал гигантский скачок вперед. В наибольшей мере его стимулирует отнюдь не желание разработчиков создать пользовательские суперудобства, а существование специфических областей компьютеризации, где голосовые команды являются более приемлемым или даже единственно возможным решением. К ним относятся телефонный доступ к автоматическим справочным системам, управление удаленным компьютером или мобильным портативным устройством, осуществляемое во время движения.
Принципы распознавания речи
Системы распознавания речи обычно состоят из двух компонент, которые могут быть выделены в блоки или в подпрограммы – акустической и лингвистической. Лингвистическая часть может включать в себя фонетическую, фонологическую, морфологическую, синтаксическую и семантическую модели языка. Акустическая модель отвечает за представление речевого сигнала. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю.
Акустическая модель
Существуют два подхода к построению акустической модели: изобретательский и бионический. Оба подхода имеют свои достоинства и недостатки. Первый базируется на результатах поиска механизма функционирования акустической модели. При втором подходе разработчик пытается понять и смоделировать работу естественных систем.
Лингвистическая модель
Лингвистический блок подразделяется на следующие слои (уровни); фонетический, фонологический, морфологический, лексический, синтаксический, семантический. Все уровни содержат априорную информацию о структуре естественного языка, а, как известно, любая априорная информация об интересующем предмете увеличивает шансы принятия верного решения. Поскольку естественный язык несет весьма сильно структурированную информацию, для каждого естественного языка может потребоваться своя уникальная лингвистическая модель (отсюда трудности русификации сложных систем распознавания речи зарубежной разработки).
В соответствии с данной моделью на первом (фонетическом) уровне производится преобразование входного (для лингвистического блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном речевом сигнале можно обнаружить лишь аллофоны – варианты фонем, зависящие от звукового окружения.
На следующем (фонологическом) уровне накладываются ограничения на комбинаторику фонем (аллофонов) – не все сочетания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математический аппарат цепей Маркова.
Далее, на морфологическом уровне оперируют со слогоподобными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограничение уже на структуру слова, подчиняясь закономерностям моделируемого естественного языка.
Лексический уровень охватывает слова и словоформы того или иного естественного языка, т. е. словарь языка, также внося важную априорную информацию о том, какие слова возможны для данного естественного языка. Семантика устанавливает соотношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При помощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения.
Российская компания «ИстраСофт» известна пакетом для обучения английскому языку с визуальным контролем произношения «Профессор Хиггинс». Развивая «Хиггинса», сотрудники «ИстраСофт» совершили технологический прорыв, значение которого трудно переоценить: они научились членить слова на элементарные сегменты, соответствующие звукам речи, независимо от диктора и от языка (Существующие системы распознавания Речи не производят сегментации, наименьшей единицей для них является слово.) Демонстрация новой технологии выглядит пока не очень эффектно: это всего-навсего упаковка и распаковка звуковых файлов с записью речи - правда, с высокими коэффициентами сжатия. Если файл был сжат сильно, то после распаковки в нем появляются отчетливо слышные границы между сегментами; использованию программы по прямому назначению они, конечно, мешают, но специалисту позволяют убедиться в правильности членения.
В соответствии с этим решение задачи речевых технологий можно представить в виде схемы рис. 5.
В основе алгоритма лежит выделение фонем из потока слитной речи в режиме реального времени, их кодирование и последующее восстановление, однако у разработчиков нет единого мнения о том, что считать фонемой при машинной обработке речи. Способ, предложенный фирмой «ИстраСофт», допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз качество сигнала практически не падает.
Чтобы создать основанную на новой технологии систему распознавания, необходимо «привязать» сегментацию к конкретному языку с помощью двух словарей – «звукового», сопоставляющего реальным звукам речи определенные фонемы, т. е. смыслоразличительные единицы (на слух мы, как правило, воспринимаем именно фонемы родного языка, не замечая различий между их вариантами, обусловленными, например, позицией), и «фонетико–орфографического», который будет переводить фонемную запись в письменную. Принципиально ничего сложного здесь нет: это вполне рутинная, умеренно трудоемкая техническая задача.
Интеллектуальная обработка речи на уровне фонем перспективна не только как способ сжатия, но и как шаг на пути к созданию нового поколения систем распознавания речи.
Engine– «машины» синтеза и распознавания речи
«Машина» (в просторечии – «движок») – это пакет программных средств, выполняющих строго определенную задачу и поставляющий интерфейс для использования его возможностей В настоящее время существует целый ряд машин синтеза и Опознавания речи, которые разработаны для использования совместно с MS Speech API.
smARTspeakCS– настраиваемая независимая от языка «машина» распознавания речи для набора цифр, указания имен и речевой навигации, т. е. для приложений, используемых в сотовых телефонах и беспроводных устройствах. Созданный для использования в указанных устройствах, smARTspeak CS удовлетворяет потребностям как пользователей, так и разработчиков: иммунитет к фоновому шуму, малые требования к процессору и памяти, совместимость с MS SAPI 5.0, оптимизация для средств быстрой разработки приложений и для интеграции в сертифицированные устройства.
Conversayпредоставляет решение для речевого взаимодействия с информацией, поставляемой через сеть, включая Internet в случае, когда другие интерфейсы слишком сложны или отсутствуют. Conversay разрабатывает речевую технологию, которая позволяет пользователям взаимодействовать через мобильные устройства привычным для себя способом.
Lernout&Hauspie.Система компании L&H позволяет настраивать чтение аббревиатур и слов (ударения). Продукт, активно продвигаемый Microsoft.
Digalo.Голосовой «движок» для русского языка Digalo – продукт французской фирмы Elan Informatique. Digalo различает буквы «Е» и «Е» и виртуозно владеет русской ненормативной лексикой. В основном ошибки в ударениях приходятся на некоторые фамилии и имена, малоупотребительные слова и термины, замечено не всегда корректное озвучивание чисел и очень акцентированное произнесение слов «нет» и «не». Разработчики обещают в дальнейшем сделать возможной корректировку произнесения отдельных слов и слогов.
Аctor5.Новый «движок» фирмы Loquendo «Actor 5» предназначен для использования в областях голосовых технологий и сервиса. Синтезирует речь на итальянском, испанском, английском, немецком, мексиканском, бразильском и американском иском диалекте (русского, к сожалению, нет).
PCVoiceClub.Движок синтеза речи Клуба голосовых технологий при Научном Парке МГУ. При его создании использована базовая технология синтеза речи, разработанная на филологическом факультете МГУ. Синтезатор характеризуется высоким качеством синтеза речи, что позволяет прослушивать тексты без их специальной подготовки. Позволяет синтезировать речь на английском и русском языках. Кроме того, имеет около десятка голосовых типажей (робот, эльф, мышь и пр.) Имеются возможности редактирования голосов. Помимо стандартных функций синтеза речи имеется дополнительная функция встраивания в текст управляющих символов, которые позволяют устанавливать паузы, изменять тембр, тон и длительность звучания. К примеру, можно, отредактировав текст, заставить синтезатор петь.
3. Геоинформационные технологии
Геоинформационные технологии можно определить как совокупность программно-технологических средств получения новых видов информации об окружающем мире. Геоинформационные технологии предназначены для повышения эффективности: процессов управления, хранения и представления информации, обработки и поддержки принятия решений. По сфере использования ГИС не имеют себе равных. Они применяются в транспорте, навигации, геологии, географии, военном деле, топографии, экономике и т.д. Переход к автоматизированным методам создания карт с помощью ГИС имеет ряд преимуществ:
-
повышение точности картографической информации; -
сокращение трудозатрат на изготовление продукции; -
увеличение производительности труда за счет автоматизации от дельных операций или исключения их.
Методологической основой процессов обработки информации в ГИС является цифровое моделирование местности, объединяющее процессы сбора первичной информации, ее моделирования и обновления, обработки и формирования документов.
За счет применения современных технических средств осуществляется автоматизация полевых и камеральных работ.
Использование ГИС происходит на разных уровнях. Это обусловлено многообразием геоинформационных технологий.
Выделяют следующие территориальные уровни использования ГИС в России:
-
глобальный уровень – Россия на глобальном и евразийском фоне, масштаб 1: 4 500 000 – 1: 100 000 000; -
всероссийский уровень – вся территория страны, включая прибрежные акватории и приграничные районы, масштаб 1: 2 500 000–1: 20 000 000; -
региональный уровень – крупные природные и экономические регионы, субъекты Федерации, масштаб 1: 500 000 – 1: 4 000 000; -
локальный уровень – области, районы, национальные парки, ареал кризисных ситуаций, масштаб 1: 50 000 – 1 000 000; -
муниципальный уровень – города, городские районы, пригородные зоны, масштаб 1: 50 000 и крупнее.
К основным компонентам ГИС относят: техническое, программное, информационное обеспечение. Требования к компонентам ГИС определяются, в первую очередь, пользователем, перед которым стоит конкретная задача (учет природных ресурсов, либо управление инфраструктурой города), которая должна быть решена для определенной территории, отличающейся природными условиями и степенью ее освоения.
Техническое обеспечение – это комплекс аппаратных средств