Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.

Презентация:



Advertisements
Похожие презентации
Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.
Advertisements

Система оптического распознавания документа Шинкаренко Евгений Александрович МОУ Гимназия 2 г. Чернняховск Калининградской области.
Системы оптического распознавания символов. Оптическое распознавание символов механический или электронный перевод изображений рукописного, машинописного.
помочь учащимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, воспитание информационной.
Системы распознавания текста Технология обработки текстовой информации.
Компьютерные словари и системы машинного перевода текстов.
Системы распознавания текста Технология обработки текстовой информации.
Информатика в школе Системы распознавания текста Технология обработки текстовой информации.
На дом: §17 Системы перевода и распознавания текстов.
Презентация к уроку по информатике и икт (9 класс) по теме: Презентация к уроку в 9 классе "Системы оптического распознавания документов"
L/O/G/O Системы оптического распознавания документов.
Цели и задачи урока: Формирование знаний о системах оптического распознавания документов. Контроль знаний и умений: тестирование, выполнение зачетной.
Гипертекст. Используется для отображения в тексте смысловых связей между основными разделами или понятиями. Позволяет структурировать документ путем выделения.
Системы оптического распознавания форм. При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного.
Тема урока: Компьютерные словари и системы машинного перевода текстов. Системы оптического распознавания документов.
Оптическое распознавание символов Боровикова Ксения ФЛ-401 г. Ростов-на-Дону 2011г.
L/O/G/O Системы оптического распознавания документов 10 КЛАСС.
Текстовые редакторы Программное обеспечение. Текстовые редакторы Для обработки текстовой информации на компьютере используются текстовые редакторы. Текстовые.
ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СОЗДАНИЯ И ОБРАБОТКИ ТЕКСТОВ.
Общая характеристика текстового процессора 1. Макет текстового документа 2 Текстовый документ – это документ, созданный в прикладной среде и состоящий.
Транксрипт:

Система оптического распознавания документа

Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.

Системы оптического распознавания символов Оптическое распознавание символов (англ. optical character recognition, OCR) механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе. (Википедия)англ.текстовом редакторе С помощью сканера несложно получить изображение cтpaницы текста в графическом файле.

Область применения Конвертация книг и документов в электронный вид; Публикации текста на web странице; Автоматизация систем учета.

Достоинства Редактирование текста. Поиск слова или фразы. Хранение в компактной форме. Печать без потери качества. Применение к тексту электронного перевода. Форматирование. Преобразование в речь.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Однако для получения документа в формате текстового файла необходимо провести pacпазнование текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.

Хорошее качество текста Растровый метод распознавания текста Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.

Плохое качество текста Структурный метод распознавания При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор параметров, определяющих взаимное расположение eгo элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами в величине улов, которые составляет третий отрезок с двумя другими. При pacпознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего coответствуют распознаваемому символу.

Программы распознавания текста Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR). Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами, но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата скажем, формата Microsoft Word.

Система оптического распознавания форм. Бланком называется стандартный лист бумаги, на котором размещается постоянная информация и отведено место для переменной. Сложность состоит в том, что необходимо распознать написанные от руки символы, довольно сильно различающиеся у разных людей. Кроме того система должна распознавать к какому полю относится распознаваемый текст. Для распознавания содержимого необходимо предварительно создать шаблон форм.

Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

Существует также системы On-line распознавания текста: Online OCR и ABBYY FineReader Online