Возможности Больших Данных для корпоративных архивов Павловский Е.Н., к.ф.-м.н. Новосибирский государственный университет (НГУ) ООО «Исследовательские.

Презентация:



Advertisements
Похожие презентации
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Advertisements

ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Методологическая культура педагога: аннотация к научной статье и ключевые слова.
Система понимания и перевода естественного языка ABBYY Compreno Александр Костюченко ABBYY.
Автоматизация процесса ввода потоков входных документов. Перевод документов из бумажной формы в электронную. Машиночитаемость документов. Работу выполнила.
Москва Семантическая обработка данных в программно-аппаратном комплексе (ПАК), предназначенном для управления предприятиями и отраслями.
ЭМК – « для прокурора » или основной « инструмент » врача ? С одной стороны - необходимость ведения медицинских карт в электроном виде провозглашено с.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Автоматизация подготовки и ведения НСИ , г. Пермь, ул. Данщина д.5 Тел./факс (342) , , Большие данные глобальной производственно-логистической.
Лекция 2. Поддержка принятия управленческих решений А. Ф. Оськин Кафедра технологий программирования Методы и алгоритмы принятия решений1.
ИНФОРМАЦИОННЫЕ И КОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ В ОБРАЗОВАНИИ И. В. Роберт, С. В. Панюкова, А. А. Техническое сопровождение Парфёнова Т. СОДЕРЖАНИЕ.
Базы данных Назначение и основные функции Гусельникова Е.В. МБОУ Лицей 130 имени академика М.А.Лаврентьева Новосибирск, 2011.
1. Что такое информационная безопасность? 2. От чего необходимо защищать информацию? 3. Как обеспечить информационную безопасность данных на личном ПК?
Resumagic: система автоматической обработки резюме Александр Сафронов.
Новые возможности медицинской информационной системы МЕДИАЛОГ версия 7.0 Андрей Борисов Генеральный директор.
1 Использование онтологий при создании интеллектуальных систем И.Л. Артемьева Дальневосточный государственный университет.
Методы работы с источниками информации Неграмотным человеком завтрашнего дня будет не тот, кто не умеет читать, а тот, кто не научился при этом учиться.
Основные понятия баз данных. Лекция. Классификация банков данных.
Галактика ПКМО - Программный комплекс мониторинга обстановки.
Базы данных Access Вводная лекция. Определение базы данных Базы данных - это совокупность тем или иным способом структурированных данных и комплекса аппаратно-программных.
Транксрипт:

Возможности Больших Данных для корпоративных архивов Павловский Е.Н., к.ф.-м.н. Новосибирский государственный университет (НГУ) ООО «Исследовательские системы», директор

Большие данные в документообороте Огромные массивы (архивы) документов Что с ними делать? Можно ли из этого массива извлечь дополнительную пользу? Какую структуру навести в неструктурированных документах? Для какой цели ещё использовать, кроме ранее заданной? ECM-системы 2

Неструктурированность Создание ГОСТов по оформлению документов (ЕСКД, ЕСПД и др.) – попытка структурировать для человека подачу печатной текстовой информации. То же происходит и с информационными системами. Этап NoSQL – разрешили неструктурированные базы данных. Этап Graph DB – структура в виде графа, а не таблиц. Информация будет использоваться не для тех целей, для которых собиралась. 3

Данные – Информация – Знания Данные – совокупность зафиксированных фактов Информация – сведения, уменьшающие неопределённость Знания – сведения, позволяющие действовать с прогнозируемым результатом Мы располагаем данными, они хранятся в цифровом виде, мы не знаем, что в них 4

5

Преобразования данных (данные в информацию) Сканирование Распознавание текста, таблиц Распознавание изображений Категоризация документов Анализ текстов Графематический анализ Морфологический анализ Предсинтаксический анализ Синтаксический анализ Семантический анализ 6

Использование информации Для принятия решений (человек преобразует информацию в действие, или в информацию о действии) Для автоматизации принятия решений (информация вызывает в машине автоматическое действие) Что-либо новое? Озарения? 7

Использование информации Для принятия решений (человек преобразует информацию в действие, или в информацию о действии) Для автоматизации принятия решений (информация вызывает в машине автоматическое действие) Что-либо новое? Озарения? 8

Возможности анализа текстов Структурирование текстов (например, ABBYY Compreno) 9

Возможности анализа текстов Извлечение информации: Персоналии (имена, пол) Адреса Организации События (факты) Спец. термины 10

Возможности анализа текстов Анализ связей (например, Neo4j) Причинно-следственная связь Устойчивая корреляция 11

Возможности для корпоративных архивов (Навигация) 1839 год. Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне. «Датифицировал» архивы моряков. «Физическая география моря» в 1855 году 1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24)Нью-Йоркаэкватору 2. Потоки течений 3. Закладка трансатлантического телеграфного кабеля 12

Возможности для корпоративных архивов (Медицина) Поиск в неструктурированной информации (записи медиков в текстовых полях ЭМК) устойчивых паттернов: 1. Действия врачей (автоматическая проверка соответствия стандартам). 2. Реакция групп пациентов на лекарства, лечения (побочные эффекты, персональная медицина). 3. Группы сходных характеристик как новые знания. 4. Автоматическое формирование классификаций Новые открытия в старых данных: 5. База для проверки новых гипотез о связи назначений и выздоровления. 13

Возможности для корпоративных архивов (Госзакупки) 1. Выявление торгового наименования товара по описанию (что закупают?). 2. Мониторинг закупок определённого товара. 3. Автоматизированный поиск конкурсов. 4. Классификация тех. заданий на «ориентированные на один продукт» и «допускающие много продуктов». 14

Евгений Павловский Тел.: ООО «Исследовательские системы» ИТ-Центр, Академпарк Анализ текстов на русском языке Графовое представление связей Поиск закономерностей Разработка онтологий