Файл: Технологии распознавания текстов (Основные понятия и определения теории распознавания текста.).pdf

В настоящее время большинство документов составляется на компьютерах. Существующие системы электронного документооборота охватывают деятельность организаций. Задача перевода информации с бумажных на электронные носители актуальна не только в рамках потребностей, возникающих в системах документооборота.

Современные информационные технологии позволяют нам существенно упростить доступ к информационным ресурсам, накопленным человечеством, при условии, что они будут переведены в электронный вид. Наиболее простым и быстрым является сканирование документов с помощью сканеров. Результат работы является цифровое изображение документа – графический файл. Более предпочтительным, по сравнению с графическим, является текстовое представление информации. Этот вариант позволяет существенно сократить затраты на хранение и передачу информации, а также позволяет реализовать все возможные сценарии использования и анализа электронных документов.

Область применения распознавания полноценных изображений многогранна. Например, на современных заводах контроль качества производимой продукции производят с использованием систем распознавания, которые отсеивают брак. Распознавание полноценных изображений применяется на дорогах, для определения и распознавания номеров автомобилей, контроль их скорости. Обработка изображений актуальна и при анализе снимков из космоса и с самолётов.

Таким образом, область применения распознавания изображений широка и многогранна и позволяет намного сократить и упростить рабочий процесс и вместе с тем повысить его качество.

Основные понятия и определения теории распознавания текста.

Распознавание символов – это операция преобразования текстовой информации из графических форматов данных в текстовые. Применяется для ввода текстов в компьютер посредством сканирования печатного или рукописного материала.

Распознавание текста является одним из направлений распознавания образов. Распознавание образов представляет собой очень сложную задачу в теоретическом и практическом смыслах, несмотря на то, что с ней достаточно легко справляются многие живые организмы и человек. Крайне сложно создать искусственную систему и ее технически реализовать для того, чтобы эффективно выполнять данный процесс. В данном случае, под распознаванием понимается соотнесение изображения объекта, его образа, набора признаков самому объекту.

Примерами и приложениями систем распознавания образов могут являться как распознавание текста в общем, так и отдельных его символов, распознавание речи, человеческих лиц, биометрических данных человека, штрих-кодов продуктов, номеров машин и т.д.

Примерами распознавания текста являются: оцифровка изображений текста (сканированные книги, статьи, журналы) для последующей работы с его цифровым аналогом, обработка анкетных бланков, распознавание номеров машин и надписей на объектах и т.д.

Задача распознавания текста остается актуальной на сегодняшний день, так как не существует стопроцентной универсальной системы по распознаванию текста. Система распознавания текста предполагает наличие на входе изображения с текстом (в формате данных графического файла). На выходе системы должен сформироваться текст, выделенный из этого изображения.

Распознавание текста включает в себя следующие подзадачи и подпроцессы:

Поступающее на вход системы изображение должно быть очищено от шума и приведено к виду, позволяющему эффективно выделять символы и распознавать их.
Система должна разбить изображение на блоки текста, основываясь на особенностях его выравнивания и распределения по нескольким колонкам.
Изображение с текстом должно быть разделено на изображения строк, а затем на изображения символов для того, чтобы в дальнейшем обработать каждый символ по отдельности. После данного шага разные системы распознавания работают по своим специфическим алгоритмам.
Изображение символа может обрабатываться целиком, для этого оно сравнивается с имеющимися шаблонами. Другим вариантом является выделение характеристик изображаемого символа: отбор характерных признаков, и классификация данных признаков по имеющимся в системе критериям.

На выходе четвертого шага появляется возможный вариант буквы. Однако обычно системы на этом не останавливаются и продолжают работу на основе других методов, уточняя полученный результат.

Результат распознавания может быть не удовлетворительным. Для получения более хороших результатов в системе может быть встроен блок обучения. С помощью этого блока можно задать системе примеры начертания разных букв в данном шрифте. После процесса обучения предполагается лучшее качество распознавания текста.

Система распознавания текста не всегда должна следовать всем описанным шагам, но основные действия процесса распознавания являются общими для любого алгоритма.

Технология оптического распознавания символов.

Оптическое распознавание символов (OCR) — это механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе.

Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тесту электронный перевод, форматирование или преобразование в речь.

Технология сканирования.

Сканирование - процесс оцифровки аналогового изображения (документ, фотография, иллюстрация, слайд) при помощи специального устройства, называемого сканером. Сканирование производится для получения, на основе оригинала, его цифрового «портрета», пригодного для компьютерной обработки.

Сканер - оптико-электронное устройство для ввода в компьютер графических изображений. Сканер создает оцифрованное изображение документа и помещает его в память компьютера.

Для работы с архивными документами используются, в основном, черно-белые и полутоновые монохромные сканеры. Это связано в первую очередь, с тем, что преобладающим типом архивного документа является текстовый документ, отпечатанный на монохромном принтере, с рукописным заполнением или правкой темными чернилами и эпизодически включающий печати, рисунки, схемы или черно-белые фотографии.

Необходимость в системах распознавания символов.

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Но работать с текстом невозможно по определённым причинам:

Страница с текстом представляет собой графический файл - обычную картинку;
Текст нельзя редактировать и форматировать;
Необходимо преобразовать элементы графического изображения в последовательности текстовых символов.

Основной метод.

Основным методом перевода бумажных документов в электронную форму является сканирование:

В результате сканирования получается графическое изображение, состоящее из точек;
Количество точек определяется размером изображения и разрешением сканера.

Преобразование документа.

Преобразования документа в электронный вид происходит в три основных этапа:

Сканирование.
Сегментация и распознавание текста.
Проверка орфографии и передача текстового документа в нужное приложение для дальнейшей работы или сохранение в файл.

Каждый из этих этапов может выполняться программами как автоматически, так и под контролем пользователя.

Суть процесса распознавания.

Чтобы реализовать автоматический или автоматизированный перевод бумажных документов в электронный вид, необходимо выполнить сканирование бумажных документов и распознать их содержимое с помощью специальных программ, называемых системами оптического распознавания символов (Optical Character Recognition - OCR). Системы оптического распознавания символов предназначены для автоматического ввода печатных документов в компьютер. Обработка изображения OCR-системой включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа.

Процессы анализа макета страницы:

Определение областей распознавания.
Определение таблиц.
Определение картинок.
Выделение в тексте строк и отдельных символов.

OCR-системы могут достигать наилучшей точности распознавания (процент правильно распознанных символов) - свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9 % получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100 % ошибок, что требует человеческого контроля результатов.

Точность распознавания падает за счет ошибок распознавания. Повышению точности распознавания способствует устранение причин ошибок.

Основные характеристики сканеров.

Разрешение (Resolution) - число точек или растровых ячеек, из которых формируется изображение, на единицу длины или площади. Чем больше разрешение устройства, тем более мелкие детали могут быть воспроизведены. Измеряется в «точках на квадратный дюйм» (DPI, dots per inch). Разрешение сканеров зависит от типа, модели, производителя, года выпуска.

Разрядность цвета (глубина цвета) - количество разрядов каждого пикселя в цифровом изображении, в т.ч. выдаваемом сканером. Описывает максимальное количество цветов, воспроизводимое сканером в виде степени числа 2. Одному разряду соответствует черно-белое изображение, 8-ми - серое полутоновое, 16-ти - цветное, 24-цветное изображение, наиболее близкое к человеческому восприятию (модель RGB), 36bit и больше - полноцветное изображение с высокой достоверностью цветопередачи, предназначенное для профессиональной работы, чаще всего в издательском деле.

Время сканирования. Измеряется в страницах в минуту (иногда - в секундах на изображение). Типовые значения различны для разных типов сканеров.

Формат. Формат сканируемого документа. Как правило - A3/A4.

Интерфейс передачи данных - способ подключения сканера к компьютеру. Способы могут быть различны (к COM или USB порту, к SCSI карте и др.).

Программы распознавания текста.

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Рассмотрим следующие программы распознавания текста:

ABBYY FineReader
OCR CuneiForm
WinScan2PDF
SimpleOCR
Freemore OCR
1. ABBYY FineReader - программа для оптического распознавания символов, разработанная российской компанией ABBYY.

Программа позволяет переводить изображения документов (фотографий, результатов сканирования, PDF-файлов) в электронные редактируемые форматы. В частности, в Microsoft Word, Microsoft Excel, Microsoft Powerpoint, Rich Text Format, HTML, PDF/A, searchable PDF, CSV и текстовые (plain text) файлы. Начиная с одиннадцатой версии файлы можно сохранять в формате djvu. Версия двенадцать поддерживает распознавание текста на сто девяноста языках и имеет встроенную проверку орфографии для сорока восьми из них.

FineReader безоговорочный лидер среди всех программ, распознающих текст на изображении.