помочь учащимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, воспитание информационной.

Презентация:



Advertisements
Похожие презентации
Системы распознавания текста Технология обработки текстовой информации.
Advertisements

Информатика в школе Системы распознавания текста Технология обработки текстовой информации.
Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.
Системы распознавания текста Технология обработки текстовой информации.
Система оптического распознавания документа Шинкаренко Евгений Александрович МОУ Гимназия 2 г. Чернняховск Калининградской области.
Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.
Системы оптического распознавания символов. Оптическое распознавание символов механический или электронный перевод изображений рукописного, машинописного.
На дом: §17 Системы перевода и распознавания текстов.
Системы оптического распознавания форм. При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного.
Компьютерные словари и системы машинного перевода текстов.
L/O/G/O Системы оптического распознавания документов.
Презентация к уроку по информатике и икт (9 класс) по теме: Презентация к уроку в 9 классе "Системы оптического распознавания документов"
Системы распознавания текста Технология обработки текстовой информации.
Гипертекст. Используется для отображения в тексте смысловых связей между основными разделами или понятиями. Позволяет структурировать документ путем выделения.
Оптическое распознавание символов Боровикова Ксения ФЛ-401 г. Ростов-на-Дону 2011г.
Системы оптического распознавания информации. Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск.
Сканирование в программе оптического распознавания документов OCRAD Ахмедова Е.В. МОУ «СОШ 1» г.Осташков Лекция 10.
Общая характеристика текстового процессора 1. Макет текстового документа 2 Текстовый документ – это документ, созданный в прикладной среде и состоящий.
L/O/G/O Системы оптического распознавания документов 10 КЛАСС.
Помочь учащимся получить представление об офисном пакете Microsoft Office, познакомиться с понятием программы Word, научить основным операциям работы.
Транксрипт:

помочь учащимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, воспитание информационной культуры учащихся, внимательности, аккуратности, дисциплинированности, усидчивости. развитие познавательных интересов, навыков работы на компьютере, самоконтроля, умения конспектировать.

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получение документа в формате текстового файла необходимо провести распознавание текста, т.е. преобразовать элементы графического изображения в последовательности текстовых символов.

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Распознавать тексты, набранные не только определенным шрифтом, но и самыми экзотическими, вплоть до рукописных Уметь корректно работать с текстами, содержащими слова на нескольких языках Корректно распознавать таблицы Корректно распознавать текст плохого качества Сохранять результаты в файл популярного текстового формата.

Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций. Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.

При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор значений параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу.

Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive;

При заполнении налоговых деклараций, при проведении переписей населения и так далее используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать написанные от руки символы, довольно сильно различающиеся у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.

С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ. Программы для распознавания текста вы можете приобрети отдельно или получить бесплатно вместе с купленным вами сканером.

FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания". Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания 176

Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости. Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Оптимальным разрешением для обычных текстов является dpi и dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).

Зачем нужны программы распознавания текста? Как происходит распознавание текста? Какие программы распознания текста вы знаете? Какими пользовались? Какое разрешение является оптимальным для сканирования текста, изображений?