Технологии обработки бумажных документов в ECM системах 2010.

Презентация:



Advertisements
Похожие презентации
Извлечение данных при обработке архивов документов DocFlow 2009.
Advertisements

ABBYY FlexiCapture 9.0 – новый продукт для извлечения больших объемов данных Протасенко Богдан.
Автоматизация обработки бумажных первичных документов при урегулировании страховых случаев.
Системы потокового ввода документов и данных. Обработка первичных бухгалтерских документов. Ольга Морозова Управляющий по корпоративным проектам ABBYY.
ABBYY Scan Station DocFlow ABBYY Scan Station Главные цели оцифровки бумажных документов Уменьшение стоимости хранения архива Уменьшение стоимости.
Эффективные решения: Загрузка документов как инструмент для реализации стратегии эффективного снижения затрат ГК «Эффективные решения»
Система потокового ввода документов. Задача массового ввода данных Ввод и хранение: ручной вариант ручной труд по вводу данных хранение данных без привязки.
ТЕМА 2. С истемы электронного документооборота. Лекция 6. Концепция ЕСМ. Функциональные подсистемы СЭД.
Система потокового ввода документов как неотъемлемая часть СЭД, АСУП, ЭА Ольга Морозова управляющий по корпоративным проектам ABBYY Россия.
ABBYY SDK – средства интеграции функций распознавания Шунько Сергей, ABBYY Украина.
Опыт организации электронного архива финансовой документации с помощью комплексного решения «eDocLib: Хранение и оцифровка» в инвестиционной компании «МИБ-
Платформа eDocLib: Удобный архив. Быстрый поиск. Совместная работа и автоматизация типовых процедур.
Единый электронный архив первичных бухгалтерских документов на платформе SAP Docflow Solutions - решения для управления электронными документами на платформе.
Конференция «Платформа 2011» Онлайн-выставка решений партнеров.
Миссия ABBYY – улучшать жизнь людей Юрий Корюкин, Директор по корпоративным продажам ABBYY Россия Юрий Корюкин, Директор по корпоративным продажам ABBYY.
Автоматизация процесса обработки первичной бухгалтерской документации в организациях ритейла
© Copyright 2013 ABBYY ПОТОКОВЫЙ ВВОД БАНКОВСКИХ ДОКУМЕНТОВ: ТЕХНОЛОГИИ, ПРЕИМУЩЕСТВА, КЛЮЧЕВЫЕ СЦЕНАРИИ Билялов Эльдар Старший менеджер по работе с корпоративными.
Системы распознавания текста Технология обработки текстовой информации.
Автоматизация процесса ввода потоков входных документов. Перевод документов из бумажной формы в электронную. Машиночитаемость документов. Работу выполнила.
ABBYY FlexiCapture Автоматизированный ввод бумажных документов в Парус 8.
Транксрипт:

Технологии обработки бумажных документов в ECM системах 2010

Функциональность ECM систем o Управление документами (Enterprise Document Management, EDM) o Управление WEB содержанием (WEB content management, WCM) o Управление цифровыми ресурсами (Digital Asset Management, DAM) o Работа с бумажными документами (Document Capture) o Управление архивами (Enterprise Record Management, ERM) o Управление бизнес процессами (Business Process Management, BPM) o Интеграция корпоративного контента (Enterprise Content Integration, ECI) o Организация совместной работы (Collaborative Content Management, CCM)

ABBYY Group 3 Fremont ABBYY USA Headquarters ABBYY Software House (Russia, Moscow) ABBYY USA (USA, Fremont, CA) ABBYY Europe (Germany, Munich) ABBYY Ukraine Kiev ABBYY Europe UK ABBYY Headquarters/ ABBYY Russia Moscow ABBYY Europe GmbH Munich, Germany ABBYY Europe UK (UK, Bishops Stortford) ABBYY Ukraine (Ukraine, Kiev) ABBYY Russia (Moscow) ABBYY Japan (Tokyo) ABBYY Japan Tokyo

ABBYY разрабатывает базовые технологии в 4-х областях –Обработка изображений –Распознавание текста –Обработка документов –Прикладная лингвистика 4

Цели обработки бумажных документов Уменьшение стоимости хранения и поиска Возможность легкого и удобного доступа к документам для всей компании Получение достоверных данных

Зачем нужно извлекать данные из бумажных документов? Использование данных в документе в качестве его атрибутов в ECM системе Проверка изображений документов в процессе наполнения ECM системы –Проверка типа и полноты документа –Проверка корректности данных в документе Повышение качества информации в корпоративных системах –использование данных из документов в других системах –индексирование всего текста документов для последующего поиска

Cтруктурированные документы Документ имеющий заранее известный набор полей цель – сохранение изображения и извлечение нужных данных Примеры: стандартные договора счета заказы платежные документы анкеты

Неструктурированные документы Текстовые документы цель – сохранение изображения и индексация текста Примеры: статьи письма тех. документация справки

Возможности автоматического извлечения данных – ABBYY FlexiCapture Рукописный текст 2. Рукописные числа 3. Всевозможные метки и группы меток 4. Напечатанный текст 5. Различные типы штрих-кодов: EAN13, EAN8, Check Code 3, Check Interleaved 25, Code 39, Code128 и др.

Основные механизмы распознавания Полнотекстовое распознавание (Full-page OCR) Зональное распознавание (Zonal/Field-level) Автоматическое распознавание страницы целиком Выборочное распознавание отдельных полей

Анализ документа – зональное распознавание Особенность сценария – распознавание отдельных полей Технология основана на предварительном полнотекстовом распознавании изображения Поиск требуемых полей строится на основе геометрических отношений между различными объектами документа Для каждого вида документа предварительно создается «шаблон» полей Главная цель анализа – правильно идентифицировать тип документа и наложить верный «шаблон»

Зональное распознавание Механизм настройки распознавания отдельных выделенных блоков, зон –Печатный текст (OCR) –Текст, написанный от руки печатными буквами (ICR) –Штрих-код –Метки Как выделить зону? –Использовать инструменты анализа –Нарисовать вручную –Описать зону координатами Zones

Зональное распознавание Локализация нужных полей документа вне зависимости от их положения

Этапы ввода бумажных документов Сканирование или фотографирование Разделение на документы и классификация Атрибутирование и извлечение данных Автоматическое извлечение нужных атрибутов из структурированных документов Полнотекстовое распознавание неструктурированных документов с последующим индексированием Проверка корректности данных Экспорт документов в систему хранения

Процесс обработки документов на примере Задача: обработка договора на поставку Извлечь данные: имя, компанию, адрес, сумму, образец подписи(печати) и.т.д. Проверить целостность документа Проверить корректность данных Документ: договор состоит из: Текст договора (от 2 до 4 стр.) Спецификация (от 1 до 2 стр.)

Сканирование Сканируем пачку договоров Получаем список неопределенных изображений

Автоматическая обработка документов Автоматическое определение и классификация документов Автоматический поиск данных Распознавание данных Проверка данных по правилам контроля

Верификация данных

Экспорт изображений и данных в ECM систему Экспорт изображений - В файл, любой графический формат - В файл pdf-searchable - В базу данных в бинарном формате - Экспорт участка изображения документа Экспорт данных - Через промежуточный файл - В ODBC совместимую базу данных - Вызов хранимой процедуры передачи данных напрямую в систему хранения

Выводы Решения для автоматического извлечения данных из бумажных документов позволяют –Упростить и ускорить процесс наполнения электронного архива –Повысить качество информации в корпоративных системах Такие решения должны использовать технологии: –распознавание: OCR, ICR, OMR, OBR с поддержкой языков документов –«зонального» распознавания –гибкой верификации документа и извлеченных данных –распределенной клиент-серверной обработки в случае большого количества документов и удаленных точек сканирования Решения для автоматического извлечения данных можно построить, используя базовые решения и технологии ABBYY

Спасибо за внимание!