Файл: Тема Назначение и виды программ распознавания текста. Функциональные возможности программ.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 22.11.2023
Просмотров: 145
Скачиваний: 7
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
ИНФОРМАТИКА И
ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫЕ
ТЕХНОЛОГИИ В ПРОФЕССИОНАЛЬНОЙ
ДЕЯТЕЛЬНОСТИ
Тема 4.6. Назначение и виды программ распознавания
текста. Функциональные возможности программ
распознания текстов. Сканирование текстовых
документов
Лекцию читает преподаватель
ГУБАРЕВА ТАТЬЯНА ВИКТОРОВНА
СОДЕРЖАНИЕ:
1.
Назначение и виды программ распознавания текста. Функциональные возможности программ распознания текстов.
2.
Сканирование текстовых документов.
Реконструкция документа.
1. НАЗНАЧЕНИЕ И ВИДЫ ПРОГРАММ
РАСПОЗНАВАНИЯ ТЕКСТА.
ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ
ПРОГРАММ РАСПОЗНАНИЯ ТЕКСТОВ.
Распознавание символов технология, которая позволяет преобразовывать различные типы документов в редактируемые форматы с возможностью поиска.
сканер изображен ие документа программ а для распознав ания символов копирование, извлечение, редактирование данных
Неправильная ориентация страницы
Многостраничные документы
Шрифт
Профессиональные термины и слова
Пятна и грязь на документе
Текст на рисунках
Таблицы
Что затрудняет распознавание текста?
Принципы технологии OCR
Фундаментальные принципы технологии OCR:
Целостность
Изображение, будет интерпретировано как некий объект, только если на нем присутствуют все структурные части этого объекта и
эти части находятся в
соответствующих отношениях.
Целенаправленность
Целенаправленная проверка ряда гипотез относительно того, на что похоже обнаруженное изображение.
Адаптивность
Программа должна быть способна к самообучению,
поэтому проверять,
верна ли выдвинутая гипотеза, система будет, опираясь на накопленные ранее сведения о
возможных начертаниях символа в
данном конкретном документе.
На данный момент существует огромное количество программ, поддерживающих распознавание текста как одну из возможностей.
ABBYY
FineReader
OCR
CuneiForm
WinScan2PDF
SimpleOCR
Freemore
OCR
Как пользоваться OCR-программами
Процесс распознавания состоит из трех этапов:
открытие (или сканирование) документа распознавание сохранение в наиболее подходящем формате
(DOC, RTF, XLS, PDF, HTML,
TXT и т. д.) либо перенос данных напрямую в офисные программы, такие как
Microsoft Word, Excel или приложения для просмотра
PDF.
ABBYY FineReader
Дост оин ст ва:
точное распознавание огромное количество языков распознавания толерантность к качеству изображения- источника
Недо статок:
пробная версия на 15 дней
OCR CuneiForm
Достоин ства
:
бесплатное распространение использование словарей для проверки правильности текста распознавание текста с ксерокопий плохого качества
Недос тат ок
:
относительно небольшая точность небольшое количество поддерживаемых языков
WinScan2PDF
Достоин ства
:
портативность быстрая работа простота в использовании
Н
едост а
то к:
минимальный размер единственный формат файлов на выходе
ABBYY
FineReader
OCR CuneiForm
Adobe Reader
WinScan2PDF
Readiris Pro
VueScan
Microsoft
OneNote
Дополнение к Office
Mobile пакету;
доступно создание маркированных списков, ввод рукописных примечаний сенсорным нажатием или цифровым пером, добавление графических картинок.
Достоинства утилиты: работа мобильной версии с OneDrive для хранения всех правок заметок, их просмотра или редактуры.
Платформы:
Windows, macOS.
Сохраняет: DOC, PDF.
Реконструкция документа
Реконструкция документа
Сохранение документа
ВЫВОДЫ по разделу 1.
Назначение и виды программ распознавания
текста. Функциональные возможности
программ распознания текстов.
С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку.
Текст можно будет читать и распечатывать, но нельзя его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.
2. СКАНИРОВАНИЕ ТЕКСТОВЫХ
ДОКУМЕНТОВ.
РЕКОНСТРУКЦИЯ ДОКУМЕНТА.
Современные системы машинного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты.
Автоматизированный перевод текста
Системы машинного перевода текста
Однако, они неприменимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.
Оптическое распознавание символов (англ. optical character recognition, OCR)
— механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере.
считывание исходного документа универсальным сканером, осуществляющим создание растрового образа и запись его в оперативную память и/или в файл функции распознавания полностью возлагаются на программные продукты , которые получили соответствующее название OCR-software
Оптическое распознавание символов
Метод сравнения с образцом
Выделение признаков
Метод прогнозирующего оптического распознавания слоев
Сохранение документа
Реконструкция документа
Распознавание символов
Анализ макета
Ввод страницы
Технологии распознавания символов
программа распознавания текста «знает», что каждому символу присущи те или иные признаки признаки остаются неизменными, даже если начертание шрифта меняется на полужирное или наклонное при выборе из нескольких вариантов предпочтение отдается символам с самой высокой степенью совпадения признаков
Метод сопоставления признаков
Метод сопоставления признаков
Метод сопоставления с образцом предусматривает сравнение каждого отдельного символа с шаблоном, хранящимся в программе
(большие базы данных с различными шрифтами) большие временные затраты малоэффективен каждый символ должен на 100% соответствовать шаблону, иначе он не будет понят.
Шрифты в распознаваемом документе и шаблоне должны быть абсолютно идентичными, с учетом всех видов форматирования.
Отсечение цвета
Документы с цветными рисунками или диаграммами можно отсканировать, но OCR- приложение будет работать только с изображениями, записанными в градациях серого.
Это практично в том смысле, что цвет распознаваемого текста будет проигнорирован, так что файл займет меньше места.
Сканер устройство, предназначенное для преобразования изображения материального объекта в
цифровой вид.
Объектами сканирования являются документы, книги, журналы, рисунки и фотографии,
слайды и
негативы и
прочие материалы,
содержащие текстовую и графическую информацию.
Современные сканеры могут представлять из себя компьютерное периферийного устройства, то есть работать в связке с компьютером, либо автономное устройство, способное отправлять результат сканирования по сети, электронной почте и даже по wi-fi.
Все сканеры условно можно разделить на
2 типа - домашние и промышленные.
Ручные сканеры
Сетевые сканеры
Книжные или планетарные сканеры
Паспортные сканеры
Протяжные сканеры
Барабанные сканеры
Пленочные сканеры
Планшетные сканеры
ВЫВОДЫ по разделу 2.
Сканирование текстовых документов.
Реконструкция документа.
Современная
OCR
должна уметь распознавать тексты,
набранные не только определенными шрифтами, но и самыми экзотическими, вплоть до рукописных, распознавать не только четко набранные тексты, но и такие, качество которых далеко от идеала.
Для того,
чтобы получить электронную,
готовую к
редактированию копию любого печатного текста, программе OCR
необходимо выполнить
«цепочку»
из множества отдельных операций.
Нередко после сканирования в исходный документ вносятся какие-либо изменения, которые требуется отобразить и в электронной копии.
Существует несколько способов отредактировать «скан».
ВЫВОДЫ:
Технология, которая позволяет преобразовывать различные типы документов, такие как отсканированные документы, PDF- файлы или фото с цифровой камеры, в редактируемые форматы с возможностью поиска принято называть «оптическое распознавание символов» (OCR).
В современной действительности для того чтобы копировать,
извлекать и редактировать данные, нам часто требуется программа для распознавания символов, которая сможет выделить в изображении буквы, составить их в слова, а затем объединить слова в предложения, что в дальнейшем позволит работать с содержимым исходного документа.
Спасибо за внимание!