Технологии обработки бумажных документов в ECM системах 2010
Функциональность ECM систем o Управление документами (Enterprise Document Management, EDM) o Управление WEB содержанием (WEB content management, WCM) o Управление цифровыми ресурсами (Digital Asset Management, DAM) o Работа с бумажными документами (Document Capture) o Управление архивами (Enterprise Record Management, ERM) o Управление бизнес процессами (Business Process Management, BPM) o Интеграция корпоративного контента (Enterprise Content Integration, ECI) o Организация совместной работы (Collaborative Content Management, CCM)
ABBYY Group 3 Fremont ABBYY USA Headquarters ABBYY Software House (Russia, Moscow) ABBYY USA (USA, Fremont, CA) ABBYY Europe (Germany, Munich) ABBYY Ukraine Kiev ABBYY Europe UK ABBYY Headquarters/ ABBYY Russia Moscow ABBYY Europe GmbH Munich, Germany ABBYY Europe UK (UK, Bishops Stortford) ABBYY Ukraine (Ukraine, Kiev) ABBYY Russia (Moscow) ABBYY Japan (Tokyo) ABBYY Japan Tokyo
ABBYY разрабатывает базовые технологии в 4-х областях –Обработка изображений –Распознавание текста –Обработка документов –Прикладная лингвистика 4
Цели обработки бумажных документов Уменьшение стоимости хранения и поиска Возможность легкого и удобного доступа к документам для всей компании Получение достоверных данных
Зачем нужно извлекать данные из бумажных документов? Использование данных в документе в качестве его атрибутов в ECM системе Проверка изображений документов в процессе наполнения ECM системы –Проверка типа и полноты документа –Проверка корректности данных в документе Повышение качества информации в корпоративных системах –использование данных из документов в других системах –индексирование всего текста документов для последующего поиска
Cтруктурированные документы Документ имеющий заранее известный набор полей цель – сохранение изображения и извлечение нужных данных Примеры: стандартные договора счета заказы платежные документы анкеты
Неструктурированные документы Текстовые документы цель – сохранение изображения и индексация текста Примеры: статьи письма тех. документация справки
Возможности автоматического извлечения данных – ABBYY FlexiCapture Рукописный текст 2. Рукописные числа 3. Всевозможные метки и группы меток 4. Напечатанный текст 5. Различные типы штрих-кодов: EAN13, EAN8, Check Code 3, Check Interleaved 25, Code 39, Code128 и др.
Основные механизмы распознавания Полнотекстовое распознавание (Full-page OCR) Зональное распознавание (Zonal/Field-level) Автоматическое распознавание страницы целиком Выборочное распознавание отдельных полей
Анализ документа – зональное распознавание Особенность сценария – распознавание отдельных полей Технология основана на предварительном полнотекстовом распознавании изображения Поиск требуемых полей строится на основе геометрических отношений между различными объектами документа Для каждого вида документа предварительно создается «шаблон» полей Главная цель анализа – правильно идентифицировать тип документа и наложить верный «шаблон»
Зональное распознавание Механизм настройки распознавания отдельных выделенных блоков, зон –Печатный текст (OCR) –Текст, написанный от руки печатными буквами (ICR) –Штрих-код –Метки Как выделить зону? –Использовать инструменты анализа –Нарисовать вручную –Описать зону координатами Zones
Зональное распознавание Локализация нужных полей документа вне зависимости от их положения
Этапы ввода бумажных документов Сканирование или фотографирование Разделение на документы и классификация Атрибутирование и извлечение данных Автоматическое извлечение нужных атрибутов из структурированных документов Полнотекстовое распознавание неструктурированных документов с последующим индексированием Проверка корректности данных Экспорт документов в систему хранения
Процесс обработки документов на примере Задача: обработка договора на поставку Извлечь данные: имя, компанию, адрес, сумму, образец подписи(печати) и.т.д. Проверить целостность документа Проверить корректность данных Документ: договор состоит из: Текст договора (от 2 до 4 стр.) Спецификация (от 1 до 2 стр.)
Сканирование Сканируем пачку договоров Получаем список неопределенных изображений
Автоматическая обработка документов Автоматическое определение и классификация документов Автоматический поиск данных Распознавание данных Проверка данных по правилам контроля
Верификация данных
Экспорт изображений и данных в ECM систему Экспорт изображений - В файл, любой графический формат - В файл pdf-searchable - В базу данных в бинарном формате - Экспорт участка изображения документа Экспорт данных - Через промежуточный файл - В ODBC совместимую базу данных - Вызов хранимой процедуры передачи данных напрямую в систему хранения
Выводы Решения для автоматического извлечения данных из бумажных документов позволяют –Упростить и ускорить процесс наполнения электронного архива –Повысить качество информации в корпоративных системах Такие решения должны использовать технологии: –распознавание: OCR, ICR, OMR, OBR с поддержкой языков документов –«зонального» распознавания –гибкой верификации документа и извлеченных данных –распределенной клиент-серверной обработки в случае большого количества документов и удаленных точек сканирования Решения для автоматического извлечения данных можно построить, используя базовые решения и технологии ABBYY
Спасибо за внимание!