Возможности Больших Данных для корпоративных архивов Павловский Е.Н., к.ф.-м.н. Новосибирский государственный университет (НГУ) ООО «Исследовательские системы», директор
Большие данные в документообороте Огромные массивы (архивы) документов Что с ними делать? Можно ли из этого массива извлечь дополнительную пользу? Какую структуру навести в неструктурированных документах? Для какой цели ещё использовать, кроме ранее заданной? ECM-системы 2
Неструктурированность Создание ГОСТов по оформлению документов (ЕСКД, ЕСПД и др.) – попытка структурировать для человека подачу печатной текстовой информации. То же происходит и с информационными системами. Этап NoSQL – разрешили неструктурированные базы данных. Этап Graph DB – структура в виде графа, а не таблиц. Информация будет использоваться не для тех целей, для которых собиралась. 3
Данные – Информация – Знания Данные – совокупность зафиксированных фактов Информация – сведения, уменьшающие неопределённость Знания – сведения, позволяющие действовать с прогнозируемым результатом Мы располагаем данными, они хранятся в цифровом виде, мы не знаем, что в них 4
5
Преобразования данных (данные в информацию) Сканирование Распознавание текста, таблиц Распознавание изображений Категоризация документов Анализ текстов Графематический анализ Морфологический анализ Предсинтаксический анализ Синтаксический анализ Семантический анализ 6
Использование информации Для принятия решений (человек преобразует информацию в действие, или в информацию о действии) Для автоматизации принятия решений (информация вызывает в машине автоматическое действие) Что-либо новое? Озарения? 7
Использование информации Для принятия решений (человек преобразует информацию в действие, или в информацию о действии) Для автоматизации принятия решений (информация вызывает в машине автоматическое действие) Что-либо новое? Озарения? 8
Возможности анализа текстов Структурирование текстов (например, ABBYY Compreno) 9
Возможности анализа текстов Извлечение информации: Персоналии (имена, пол) Адреса Организации События (факты) Спец. термины 10
Возможности анализа текстов Анализ связей (например, Neo4j) Причинно-следственная связь Устойчивая корреляция 11
Возможности для корпоративных архивов (Навигация) 1839 год. Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне. «Датифицировал» архивы моряков. «Физическая география моря» в 1855 году 1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24)Нью-Йоркаэкватору 2. Потоки течений 3. Закладка трансатлантического телеграфного кабеля 12
Возможности для корпоративных архивов (Медицина) Поиск в неструктурированной информации (записи медиков в текстовых полях ЭМК) устойчивых паттернов: 1. Действия врачей (автоматическая проверка соответствия стандартам). 2. Реакция групп пациентов на лекарства, лечения (побочные эффекты, персональная медицина). 3. Группы сходных характеристик как новые знания. 4. Автоматическое формирование классификаций Новые открытия в старых данных: 5. База для проверки новых гипотез о связи назначений и выздоровления. 13
Возможности для корпоративных архивов (Госзакупки) 1. Выявление торгового наименования товара по описанию (что закупают?). 2. Мониторинг закупок определённого товара. 3. Автоматизированный поиск конкурсов. 4. Классификация тех. заданий на «ориентированные на один продукт» и «допускающие много продуктов». 14
Евгений Павловский Тел.: ООО «Исследовательские системы» ИТ-Центр, Академпарк Анализ текстов на русском языке Графовое представление связей Поиск закономерностей Разработка онтологий