помочь учащимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, воспитание информационной культуры учащихся, внимательности, аккуратности, дисциплинированности, усидчивости. развитие познавательных интересов, навыков работы на компьютере, самоконтроля, умения конспектировать.
С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получение документа в формате текстового файла необходимо провести распознавание текста, т.е. преобразовать элементы графического изображения в последовательности текстовых символов.
Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).
Распознавать тексты, набранные не только определенным шрифтом, но и самыми экзотическими, вплоть до рукописных Уметь корректно работать с текстами, содержащими слова на нескольких языках Корректно распознавать таблицы Корректно распознавать текст плохого качества Сохранять результаты в файл популярного текстового формата.
Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций. Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.
При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор значений параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу.
Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive;
При заполнении налоговых деклараций, при проведении переписей населения и так далее используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать написанные от руки символы, довольно сильно различающиеся у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.
С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ. Программы для распознавания текста вы можете приобрети отдельно или получить бесплатно вместе с купленным вами сканером.
FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания". Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания 176
Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости. Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Оптимальным разрешением для обычных текстов является dpi и dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).
Зачем нужны программы распознавания текста? Как происходит распознавание текста? Какие программы распознания текста вы знаете? Какими пользовались? Какое разрешение является оптимальным для сканирования текста, изображений?