Обеспечение качества данных в информационных системах Дмитрий Шушкин, Руководитель направления корпоративных проектов, ABBYY Россия Дмитрий Шушкин, Руководитель направления корпоративных проектов, ABBYY Россия
2 ABBYY Recognition Server – надёжен и прост!
3 Как работает ABBYY Recognition Server Input foldersOutput folders
4 Архитектура ABBYY Recognition Server Входящая папка для изображений Исходящая папка для результатов Задание для обработки
5 Как работает ABBYY Recognition Server IT-специалист или системный администратор: Устанавливает и настраивает ABBYY Recognition Server Пользователи: Кладут изображения и PDF-файлы во входящую папку Забирают результат из исходящей папки ABBYY Recognition Server: Делает всё остальное!
6 Почему мы думаем, что Вам это нужно За последний год было продано: Несколько десятков тысяч МФУ стоимостью более $10K Более одного миллиона МФУ средней и нижней ценовой категории
7 Проблемы анализа данных ИНН ? = М.О. Долгопрудный ул Первомайская 5 11 АДРЕС г. Долгопрудный Мытищинского района Московской области Первомайская 5 11 ? ЧТО ДЕЛАТЬ?
8 Прикладные задачи Внедрение ERP / DMS / CMS / CRM - загрузка данных Слияние баз информационных систем (например, при объединении компаний) Отслеживание повторений в справочниках
9 Примеры типов данных Адреса Наименования организаций Номенклатуры товаров Паспортные данные ФИО Место рождения и другие…
10 Что такое нормальный вид? Нормальный вид типа данных: Основной критерий – возможность простым сравнением любых нормализованных объектов одного типа сказать - равны эти объекты или нет. Нормальный вид типа данных определяется аналитиком и разработчиком в контексте прикладной задачи
11 Нормализация 1-го адреса М.О. Долгопрудный ул Первомайская 5 11 М.О. | Долгопрудный | ул Первомайская | 5 | 11 МОСКОВСКАЯ | ОБЛ | ДОЛГОПРУДНЫЙ | Г | ПЕРВОМАЙСКАЯ | УЛ | Д | 5 | КВ | | РОССИЯ | МОСКОВСКАЯ | ОБЛ | МЫТИЩИНСКИЙ | Р-Н | ДОЛГОПРУДНЫЙ | Г | ПЕРВОМАЙСКАЯ | УЛ | Д | 5 | КВ | 11 Этап 1. Структуризация Этап 2. Приведение к каноническому виду Этап 3. Проверка на существование (с восстановлением по справочнику) Регион | Нас. Пункт | Улица | Дом | Кв.
12 Нормализация 2-го адреса г. Долгопрудный Мытищинского района Московской области Первомайская 5 11 Московская область | Мытищинский район | г. Долгопрудный | Первомайская | 5 | 11 МОСКОВСКАЯ | ОБЛ | МЫТИЩИНСКИЙ | Р-Н | ДОЛГОПРУДНЫЙ | Г | ПЕРВОМАЙСКАЯ | УЛ | Д | 5 | КВ | | РОССИЯ | МОСКОВСКАЯ | ОБЛ | МЫТИЩИНСКИЙ | Р-Н | ДОЛГОПРУДНЫЙ | Г | ПЕРВОМАЙСКАЯ | УЛ | Д | 5 | КВ | 11 Этап 1. Структуризация Этап 2. Приведение к каноническому виду Этап 3. Проверка на существование (с восстановлением по справочнику) Регион | Район | Нас. пункт | Улица | Дом | Кв.
13 Решение проблемы анализа ИНН = М.О. Долгопрудный ул Первомайская 5 11 АДРЕС г. Долгопрудный Мытищинского района Московской области Первомайская 5 11 ЧТО ДЕЛАТЬ? НОРМАЛИЗАЦИЯ | РОССИЯ | МОСКОВСКАЯ | ОБЛ | МЫТИЩИНСКИЙ | Р-Н | ДОЛГОПРУДНЫЙ | Г | ПЕРВОМАЙСКАЯ | УЛ | Д | 5 | КВ | 11 ? =
14 Уже работает ! Реализована настройка Сервера качества данных для следующих типов: ПБОЮЛ Юридические лица Банки Физические лица ФИО Даты Адреса Коды Кем и когда выдан документ, удостоверяющий личность Дата и место рождения и другие (всего более 30 типов данных)
15 Дмитрий Шушкин Руководитель направления корпоративных проектов ABBYY Россия Тел.: +7 (495) Факс: +7 (495)