Система оптического распознавания документа Шинкаренко Евгений Александрович МОУ Гимназия 2 г. Чернняховск Калининградской области.

Презентация:



Advertisements
Похожие презентации
Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.
Advertisements

Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.
помочь учащимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, воспитание информационной.
Системы оптического распознавания символов. Оптическое распознавание символов механический или электронный перевод изображений рукописного, машинописного.
Компьютерные словари и системы машинного перевода текстов.
Системы распознавания текста Технология обработки текстовой информации.
Информатика в школе Системы распознавания текста Технология обработки текстовой информации.
На дом: §17 Системы перевода и распознавания текстов.
Презентация к уроку по информатике и икт (9 класс) по теме: Презентация к уроку в 9 классе "Системы оптического распознавания документов"
Системы распознавания текста Технология обработки текстовой информации.
Системы оптического распознавания форм. При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного.
L/O/G/O Системы оптического распознавания документов.
Гипертекст. Используется для отображения в тексте смысловых связей между основными разделами или понятиями. Позволяет структурировать документ путем выделения.
Тема урока: Компьютерные словари и системы машинного перевода текстов. Системы оптического распознавания документов.
Цели и задачи урока: Формирование знаний о системах оптического распознавания документов. Контроль знаний и умений: тестирование, выполнение зачетной.
Оптическое распознавание символов Боровикова Ксения ФЛ-401 г. Ростов-на-Дону 2011г.
L/O/G/O Системы оптического распознавания документов 10 КЛАСС.
Общая характеристика текстового процессора 1. Макет текстового документа 2 Текстовый документ – это документ, созданный в прикладной среде и состоящий.
Электронный офис. Это система автоматизации работы учреждения, основанная на использовании компьютерной техники.
ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СОЗДАНИЯ И ОБРАБОТКИ ТЕКСТОВ.
Транксрипт:

Система оптического распознавания документа Шинкаренко Евгений Александрович МОУ Гимназия 2 г. Чернняховск Калининградской области

Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. С помощью сканера несложно получить изображение cтpaницы текста в графическом файле. Однако для получения документа в формате текстового файла необходимо провести pacпазнование текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.

Сначала необходимо распознать структуру размещения текста на странице : выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.

Хорошее качество текста Растровый метод распознавания текста Если исходный документ имеет типографское качество ( достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений ), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.

Плохое качество текста Структурный метод распознавания При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор параметров, определяющих взаимное расположение eгo элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами в величине улов, которые составляет третий отрезок с двумя другими. При pacпознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего coответствуют распознаваемому символу.

Программы распознавания текста Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR). Современная OCR должна уметь многое : распознавать тексты, набранные не только определенными шрифтами, но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового ( или табличного ) формата скажем, формата Microsoft Word.

Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают. Существует также системы On-line распознавания текста: Online OCR и ABBYY FineReader Online (

Системы оптического распознавания форм При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного вида бланки с полями. Рукописные тексты ( данные вводятся в поля печатными буквами от руки ) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст. Системы распознавания рукописного текста. С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.