Файл: Сканирование и системы, обеспечивающие распознавание символов.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 25.10.2023

Просмотров: 156

Скачиваний: 11

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Сканирование и системы, обеспечивающие распознавание символов
Системы, обеспечивающие распознавание символов — это технология оптического распознавания символов и их извлечения из изображений, сканов и PDF-файлов.

Общие сведения о сканировании

Практически все пользователи компьютеров неизбежно могут столкнуться с проблемой преобразования документов из бумажного формата в электронный формат. Но операция ввода информации в ручном режиме способна отнимать очень большое количество времени с возможностью допустить массу ошибок. Помимо этого, в ручном режиме можно ввести только тексты, но никак не изображения. Выходом из данной ситуации может служить сканер, который позволяет вводить в компьютер, как изображения, так и текстовые документы. Сканеры способны считывать с бумаги, пленки или других твердых носителей «аналоговые» тексты или изображения и преобразовать их в цифровую форму.

Сканером, в английском написании scanner, является устройство ввода текстовой или графической информации в компьютер путем преобразования ее в цифровую форму для последующего использования, обработки, хранения или вывода.

Сканированием является процесс оцифровки изображений, или по-другому, перевод его в компьютерный формат. Сравнительно недавно эта область была уделом только профессионалов, но затем технический прогресс предоставил возможность сканирования изображений и рядовым пользователям.

Сканирование и системы, обеспечивающие распознавание символов

Сканер может выполнять следующие операции:

сканирования изображений;

сканирования текстов с целью их последующего распознавания.

Под распознаванием текстовой информации понимается процесс преобразования изображений буквенных и цифровых символов в цифровой формат для обеспечения возможности их дальнейшей обработки при помощи текстовых редакторов.

Следует отметить, что при сканировании изображений может появиться цифровой шум, который является следствием не идеальности конструкции электронных узлов сканеров, таких как, светочувствительные элементы и их цепи. Но почему-то, производители сканеров предпочитают не указывать уровень цифрового шума в характеристиках продаваемых устройств. Вероятно, это можно объяснить тем обстоятельством, что на текущий момент нет стандартизированной методики измерения этой характеристики.


Применительно к отсканированным изображениям следует различать следующие виды цифрового шума:

случайный цифровой шум, регулярный цифровой шум.

Случайный шум может проявляться как подобие «снега», гранулярности или хаотически расположенных инородных точек в изображении и появляется вследствие нестабильности функционирования полупроводниковых приборов (при колебаниях температуры и с течением времени), а также в результате вносимых электронными компонентами искажений. Для того чтобы минимизировать случайный шум, перед сканированием можно выполнить процедуру калибровки, при которой измеряются пороговые значения и смещение базового напряжения для каждого светочувствительного элемента.

Регулярный шум может возникать как следствие перекрестных помех, которые наводятся с соседних светочувствительных элементов, и по другим причинам. Регулярные шумы, в отличие от случайных шумов, очень хорошо заметны, так как они проявляются в виде горизонтальных, вертикальных либо диагональных полос.

Для того чтобы можно было с максимальной эффективностью использовать устройства, требуется программа распознавания текста. При помощи сканера можно сравнительно легко сформировать изображение страницы текста в графическом файле. Но вести обработку текста не представляется возможным по следующим причинам:

1. Страница с текстом является просто графическим файлом, то есть, обычной картинкой. 2. Нет возможности редактирования и форматирования текста.

3. Следует выполнить преобразование элементов графического изображения в последовательность реальных текстовых символов.

Для преобразования графического изображения в текстовый формат служат специальные программные продукты, предназначенные для распознавания текста OCR (Optical Character Recognition). Самыми широко используемыми системами оптического распознавания символов являются следующие программы:

1. Программа ABBYY FineReader. 2. Программа CuneiForm.

Программное приложение ABBYY FineReader является омнифонтовой системой оптического распознавания текста. Это значит, что она предоставляет возможность распознавания текстов, набранных практически при помощи любых шрифтов, без необходимости предварительного обучения.



Характерной чертой программного приложения FineReader может считаться повышенная точность распознавания и малая чувствительность к имеющимся дефектам печати. OCR-технологии от корпорации ABBYY, помимо этого, способны поддерживать зональное распознавание (распознавание на уровне полей), которое необходимо в некоторых основных процессах бизнеса, таких как, классификация по ключевым словам, индексирование по ключевым словам и ввод данных с различных форм.

Пользователь имеет возможность настройки рабочего пространства по своему усмотрению, а именно:

1. Возможность изменять расположение и размеры окон.

2. Возможность настройки панели быстрого доступа, которая предназначена для доступа к наиболее часто применяемым командам.

3. Возможность настройки горячих клавиш, то есть, можно как заменять

предустановленные сочетания, так и добавлять свои горячие клавиши для исполнения команд программы.

4. Возможность выбора необходимого языка интерфейса и прочее.

Программа ABBYY FineReader обладает следующими функциональными возможностями

возможность извлечения текстовой информации из цифровых изображений, возможность сохранения итогов распознавания в разных форматах. возможность использования шаблонов,

возможность осуществления распознавания с обучением, возможность создания новых языков и групп языков, возможность коллективной работы в сети.