Ю.Н.Филиппович, А.Ю.Филиппович, ИНТЕГРИРОВАННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ В МЕДИАИНДУСТРИИ Слайд-лекции для студентов специальности 230204 «Информационные технологии.

Презентация:



Advertisements
Похожие презентации
Оптическое распознавание символов Боровикова Ксения ФЛ-401 г. Ростов-на-Дону 2011г.
Advertisements

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СОЗДАНИЯ И ОБРАБОТКИ ТЕКСТОВ.
помочь учащимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, воспитание информационной.
Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.
Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.
На дом: §17 Системы перевода и распознавания текстов.
Системы распознавания текста Технология обработки текстовой информации.
Система оптического распознавания документа Шинкаренко Евгений Александрович МОУ Гимназия 2 г. Чернняховск Калининградской области.
Информатика в школе Системы распознавания текста Технология обработки текстовой информации.
Системы оптического распознавания символов. Оптическое распознавание символов механический или электронный перевод изображений рукописного, машинописного.
Устройства ввода информации Выполняла Сорокина К. 9б.
Работа с текстовыми документами. Ввод текста При подготовке текстовых документов на компьютере используются три основные группы операций: ввод редактирование.
Системы распознавания текста Технология обработки текстовой информации.
Электронный офис. Это система автоматизации работы учреждения, основанная на использовании компьютерной техники.
Учитель математики и информатики Быстрова Анжелика Алексеевна. МБОУ 30 г. Южно-Сахалинска.
Распознавание изображений. 1 Принципы IPA: - Принцип целостности (integrity) -Принцип целенаправленности (purposefulness) -Принцип адаптивности (adaptability)
I вариант 1.Абзац – произвольная последовательность символов, ограниченная специальными символами конца абзаца. 2.Клавиатура – важнейшее устройство ввода.
Ввод информации с бумажных носителей Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск 2009.
Цели урока : Дать представление о компьютере как инструменте обработки текстовой информации, о программных средствах - текстовых редакторах и текстовых.
"Своя игра" 5-6 класс ЦО 1428 Своя игра Информатика 5-6 класс.
Транксрипт:

Ю.Н.Филиппович, А.Ю.Филиппович, ИНТЕГРИРОВАННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ В МЕДИАИНДУСТРИИ Слайд-лекции для студентов специальности «Информационные технологии в медиаиндустрии» Модуль 1. Интегрированные издательские технологии Тема. Технологии ввода текста. Москва, 2013 г.

План лекции Технологии ввода текста Клавиатурный и интеллектуальный ввод текста; Альтернативные системы ввода текста; Особенности ввода иероглифов; Технологии оптического распознавания Определения, принципы; OCR и ICR-системы; Стратегия использования, анализ эффективности.

Издательская технология ( технология от греч. téchne искусство, мастерство, умение и...логия) совокупность приёмов и способов получения, обработки или переработки сырья, материалов, полуфабрикатов или изделий, осуществляемых в издательской отрасли. Описание последовательности трудовых операций, необходимых для создания печатной продукции и электронных ресурсов.

Производство печатной продукции Стадии процесса производства печатной продукции: допечатная подготовка; печатные процессы; послепечатная обработка. Допечатная подготовка охватывает этапы работ, начиная от идеи оформления, подготовки текстовой информации, изобразительных оригиналов и графики и заканчивая изготовлением готовых печатных форм, которые используются для печати тиража. Домедийная подготовка – premedio. Этим термином обозначают цифровую подготовку текста и изображения, пригодных для вывода на любой конечный носитель информации.

Технология изготовления репродуцируемого оригинал-макета [Волкова].

Этапы создания наборного издания (упрощенная схема) 1.Набор (ввод) текста. 2.Корректура и редактура. 3.Формирование оригинал-макета, верстка. 4.Вывод оригинал-макета для печати.

Технологии ввода текста Клавиатурный ввод текста; Интеллектуальный ввод текста; Оптическое распознавание текста; Речевой ввод текста.

Клавиатурный ввод текста Для ввода текста широко используется клавиатура компьютера. Скорость ввода текста первую очередь зависит от используемой раскладки. Латинские раскладки клавиатур: алфавитная; QWERTY; Dvorak; Colemak. Русские раскладки: ЙЦУКЕН, фонетическая.

Методики ускорения ввода текста Слепой метод набора текста методика набора текста «вслепую», то есть не глядя на кнопки клавиатуры, ранее был известен как американский слепой десятипальцевый метод. Текстовые экспандеры – программы ускоренного ввода текста. Примеры программ: – Phrase Express 7.0; – Texter 0.6; – Turbo Type 1.39.

Технологии ввода текста в мобильных устройствах Режим Multitap – стандартный ввод с клавиатуры многократным нажатием кнопки. Технология ввода текста с помощью виртуальной клавиатуры. Выбирая параметры можно осуществлять ввод текста на разных языках, ввод специальных символов и т.п.

Интеллектуальный ввод текста Предиктивный ввод текста (от англ. predict предсказывать) система ускоренного ввода текста в цифровые устройства, при которой программное обеспечение устройства в процессе набора предлагает варианты окончания слов и фраз, основываясь на имеющихся в его словаре, а также может предлагать исправлять распространённые ошибки. Примеры режим T9, iTap. T9 (от англ. Text on 9 keys), набор текста на 9 кнопках. T9 разработана компанией Tegic Communications (создатель Клиф Кашлер). iTap разработана фирмой Motorola. В отличии от Т9 iTap пытается предугадать и более длинные слова, анализируя не только набранные буквы текущего слова, но и предыдущий текст.

Интеллектуальный ввод текста Система ввода текста Swype (изм. от англ. swipe скользить и англ. type писать) метод ввода текста не отрывая палец/стилус от «кнопок клавиатуры» на сенсорном экране. Рзработчик Клифф Кашлер. Альтернативная система ввода 8pen. Для ввода любой буквы необходимо коснуться центрального круга и, не отрывая палец от экрана, переместить его в нужный сектор, после чего провести линию ещё через несколько секторов и вернуть палец на место.

Системы ввода иероглифов Структурный метод Структурный метод ввода китайских иероглифов основан на графической структуре иероглифа. Каждый иероглиф состоит из нескольких частей - графем. Клавиатура разбита на пять зон, по числу базовых черт. Внутри каждой зоны клавиши пронумерованы от центра клавиатуры к краям. Номер составляется из двух цифр от 1 до 5 в зависимости о того, из каких базовых черт собирается графема. Метод структурного ввода уби цзысин (Wubing zixing «ввод по пяти чертам»).уби цзысин

Системы ввода иероглифов Фонетический метод Фонетический метод пиньинь (Pinyin). На его основе построена система фонетического ввода, которая входит в стандартный Asian Language Pack системы Windows.пиньинь Основным недостатком систем фонетического ввода является довольно низкая скорость печати около 50 знаков в минуту (уби цзысин 160 знаков в минуту).

Системы ввода иероглифов Гибридные методы Эти методы представляют собой некую комбинацию фонетических и структурных методов ввода. Простейший пример метод иньсин (Yinxing «звучание и форма»). Иероглиф набирается путем ввода транскрипции и указания на графический элемент. Ограниченный набор графических элементов разнесен по клавиатуре, так что запомнить их теоретически не сложно.

Распознавание текста Оптическое распознавание символов (англ. optical character recognition, OCR) перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе. Интеллектуальное распознавание символов ICR (intelligent character recognition) используются для распознавания рукописных текстов, декоративных шрифтов и т.п.

Распознавание рукописного текста Распознавание рукописного текста может производиться «оффлайновым» методом из уже написанного на бумаге текста или «онлайновым» методом считыванием движений кончика ручки, к примеру по поверхности специального компьютерного экрана.

Системы оптического распознавания текста Системы оптического распознавания текста – OCR-системы предназначены для ввода печатного текста для печатных и электронных изданий. Примеры: Recognita Plus DTK (Венгрия), TextBridge, TypeReader (США), СharacterEyes (Израиль), IRIS OCR (Бельгия), Easy Reader (Франция) и др. Наиболее известными программами класса «Системы оптического распознавания» в России являются: ABBYY FineReader, OmniPage Professional и OCR CuneiForm.

Этапы преобразование документа в электронный вид OCR-системами Сканирование и предварительная обработка изображения. Анализ структуры документа. Распознавание. Проверка результатов. Реконструкция документа (воссоздание его исходного вида). Экспорт.

Базовые принципы технологий распознавания текста Принципы IPA: – Целостность (integrity); – Целенаправленность (purposefulness); – Адаптивность (adaptability). Многоуровневый анализ документа. Страница ТаблицаБлок текстаКартинка Ячейка Абзац Строка Слово Буква (символ)

Механизм распознавания Механизм распознавания символов представляет собой комбинацию ряда элементарных распознавателей, называемых классификаторами. Упрощённая схема работы классификатора Классификатор Гипотеза 1 Гипотеза 2 …. Гипотеза n База эталонов Входные данные

Механизм распознавания Все выдвинутые в процессе обработки документа гипотезы рассматриваются в составе многоуровневых структур – моделей. В результате побеждает гипотеза, имеющая наибольший вес.

Ввод текста с помощью OCR-систем Обобщенная схема технологического процесса ввода текста с помощью OCR-систем

Исследование эффективности OCR-систем для ввода текста Исследование эффективности ввода текста с помощью OCR- системы будет включать в себя следующие компоненты: – исследование временных затрат; – статистическое исследование количества ошибок; – анализ эффективности ввода текста. При этом рассматриваются следующие виды текстов: – современный текст хорошего качества; – современный текст плохого качества; – старинный текст XVIII в.

Исследование временных затрат Сравнение временных затрат на этапы ввода одной страницы текста Вид текстаСканированиеРаспознавание современный текст хорошего качества62 с.29 с. современный текст плохого качества61 с.30 с. текст XVIII в.52 с.32 с. Время сканирования и распознавания зависит от множества факторов: характеристик сканера, производительности системы (скорости работы процессора, объема оперативной памяти и т.д.), от особенностей текста, качества оригинала, шрифта и т.п.

Точность распознавания Одним из основных параметров качества функционирования системы распознавания является точность распознавания, обычно выражаемая процентным соотношением: где n верно_расп i и n общ i есть количество верно распознанных символов и общее количество символов на странице (в документе).

Статистическое исследование количества ошибок Фрагмент по 10 страниц Кол-во знаков (символов) n общ Кол-во слов Кол-во неуверенно распознанных символов Кол-во ошибок n о Точность распознава ния Ac расп (%) ,97 % ,99 % ,96 % ,94 % ,97 % ,98 % … ,99 % Среднее ,97 % Текст хорошего качества

Статистическое исследование количества ошибок Фрагмент по 10 страниц Кол-во знаков (символов) n общ Кол-во слов Кол-во неуверенно распознанны х символов Кол-во ошибок n о Точность распознаван ия Ac расп (%) ,62 % ,88 % ,74 % ,82 % ….… ,70 % Среднее ,61 % Текст плохого качества

Статистическое исследование количества ошибок Страница Кол-во знаков (символов) n общ Кол-во слов Кол-во неуверенно распознанны х символов Кол-во ошибо к n о Точность распознаван ия Ac расп (%) 1 т.: ,03 % 2 т.: ,31 % 3 т.: ,17 % 5 т.: ,62 % 6 т.: ,55 % 1 т.: ,68 % 3 т.: ,46 % 3 т.: ,10 % Среднее ,00 % Текст XVIII в. (САР)

Статистическое исследование количества ошибок Стр. Кол-во знаков (символов) n общ Кол-во слов Кол-во неуверенно распознанных символов Кол-во ошибок n о Точность распознаван ия Ac расп (%) 1 т.: ,00% 1 т.: ,33% 1 т.: ,74% 1 т.: ,06% 1 т.: ,94% 1 т.: ,22% 1 т.: ,21% ……………… Среднее ,16 % Текст XVIII в. (САР) с использованием распознавания с обучением