Извлечение данных при обработке архивов документов DocFlow 2009
Цели обработки архивов документов Сохранение изображений –Для удаленного принятия решений –Для повторного использования (кросс продажи) –Для аудита решений Проверка изображений документов в процессе наполнения –Проверка полноты документа или дела –Проверка корректности данных в документе Повышение качества информации в корпоративных системах –Извлечение данных из документа для более гибкого поиска
Наиболее актуально для: Финансовые учреждения - Кредитные дела - Пакет документов на открытие счета - Страховые дела Телекоммуникационные и «билинговые» компании - Договора на подключение - Квитанции об оплате Государственные архивы, библиотеки Наиболее трудоемкий процесс – наполнение электронного архива накопившимися и текущими бумажными документами
Типы бумажных документов Структурированные –Типовые договора –Заявления на стандартном бланке заполненные от руки –Персональные государственные документы Неструктурированные –Нестандартные договора –Нестандартные заявления, письма –Документы связанные с имуществом
Этапы ввода бумажных документов Сканирование или фотографирование Разделение на документы и классификация Атрибутирование и извлечение данных Автоматическое извлечение нужных атрибутов Ввод нужных атрибутов вручную Полнотекстовое распознавание неструктурированных документов с последующим индексированием Проверка корректности данных Экспорт документов в систему хранения
Требования к сканеру «Обычные» документы – автоподатчик Сшитые документы – планшет Рекомендуемая нагрузочная способность Скорость сканирования Специальные функции (отсечения цвета, автоподбор яркости, удаление пустых страниц). Сканирование
Разделение на документы и классификация Автоматически на основании атрибута документа
ABBYY Recognition Server 2.0 Разделение на документы и классификация Полуавтоматически Формирование документов по разделительным листам с штрих-кодами РаспознаваниеСканирование Договор 1 Договор 2
Проверка структуры дела Необходима возможность визуальной проверки отсканированного Перемещения/удаления страниц
Атрибутирование и извлечение данных Автоматическое извлечение нужных атрибутов – структурированные документы
Атрибутирование и извлечение данных Ввод нужных атрибутов вручную – для «нераспознаваемых» полей
Атрибутирование и извлечение данных Полнотекстовое распознавание – для неструктурированных документов
Проверка корректности данных Проверка формата распознанных данных Проверка данных по справочникам и базам Перекрестная проверка данных на разных страницах
14 Экспорт изображений и данных во внешнюю систему хранения Экспорт изображений - В файл, любой графический формат - В файл pdf-searchable - В базу данных в бинарном формате - Экспорт участка изображения документа Экспорт данных - Через промежуточный файл - В ODBC совместимую базу данных - Вызов хранимой процедуры
Автоматизированная обработка, что необходимо? Программное обеспечение для потоковой обработки документов Скоростной сканер Разработка конфигурации ПО для обработки документов заказчика, обучение специалистов заказчика
Архитектура Архитектура системы обработки бумажных документов зависит от: –«Распределенния» хранения и обработки документов в организации –Количества документов –Доступности каналов связи –Требований безопасности –Необходимой скорости обработки В построении системы помогут системные интеграторы и ABBYY Украина
ABBYY Group 17 Fremont ABBYY USA Headquarters ABBYY Software House (Russia, Moscow) ABBYY USA (USA, Fremont, CA) ABBYY Europe (Germany, Munich) ABBYY Ukraine Kiev ABBYY Europe UK ABBYY Headquarters/ ABBYY Russia Moscow ABBYY Europe GmbH Munich, Germany ABBYY Europe UK (UK, Bishops Stortford) ABBYY Ukraine (Ukraine, Kiev) ABBYY Russia (Moscow) ABBYY Japan (Tokyo) ABBYY Japan Tokyo
Спасибо за внимание! Презентацию для Вас подготовил Доможиров Илья менеджер отдела корпоративных проектов ABBYY Украина