Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.

Презентация:



Advertisements
Похожие презентации
ОБУЧЕНИЕ КЛАССИФИКАТОРОВ НА ОСНОВЕ ВЫДЕЛЕНИЯ ФРАГМЕНТОВ Васильев В.Г.
Advertisements

"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Электронный каталог как инструмент доступа к информации.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Информационно-поисковая система. Классификация информационно- поисковых систем.
Классификация систем План I.Классификация системы II.Сложность системы.
Диалог-2005, "Звенигородский" 1 ФОРМИРОВАНИЕ ЗАПРОСОВ К ПОИСКОВОЙ МАШИНЕ ДЛЯ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ИНТЕРНЕТА А.Л. Воскресенский,
ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО- ПОИСКОВЫХ ЯЗЫКОВ В ПРОЦЕССЕ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТОВ И СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА. Пяткова И.Н.
Тема урока: « Информационные системы. Классификация информационных систем »
Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная.
ГОСТЕХКОМИССИЯ РОССИИ РУКОВОДЯЩИЙ ДОКУМЕНТ Защита от несанкционированного доступа к информации.
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Распределенная обработка информации Разработано: Е.Г. Лаврушиной.
Методы обработки графических изображений. Распознавание человека по изображению лица Плюсы: - не требуется специальное или дорогостоящее оборудование;
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЭКОНОМИКЕ Тема 2. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ОБРАБОТКИ ДАННЫХ Подготовил Иванов А.Н.
Подход к выявлению подмножеств похожих документов А. Антонов, С. Баглей, В. Мешков { alexa, baglei, galaktika.ru.
Система эффективной подготовки специалистов через партнерство учреждений образования с работодателем.
Информационные системы в экономике Лекция 1. Основные понятия и определения Автоматизированная информационная система это совокупность технических программных.
Транксрипт:

Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.

Особенности реальных массивов текстов Недостаточное количество обучающих примеров Наличие ошибок в эталонной классификации Несоответствие обучающих и обрабатываемых данных Совместное использование нескольких принципов деления на классы Политематический и зашумленный характер текстов Сложность интерпретации результатов классификации Наличие повторяющейся и дублирующей информации

Организационные проблемы Ограниченный доступ разработчиков систем автоматической классификации к исходным данным и массивам текстов Выполнение настройки и использования средств классификации пользователями, которые не являются специалистами в области автоматической обработки текстов

Комплексная технология классификации текстов

Недостаточное количество обучающих примеров Прикладные проблемы: невозможность построения правил классификации для большинства методов, основанных на обучении по примерам; низкая надежность оценки качества обучения. Решение: поддержка совместного использования трех типов решающих правил для рубрик: статистических (обучаемых на примерах документов), логических (задаются экспертами на специальном информационно-поисковом языке), шаблонных (задаются экспертами в виде регулярных выражений).

Наличие ошибок в эталонной классификации Прикладные проблемы: формирование ошибочных правил классификации; результаты оценки качества обучения оказываются некорректными. Решение: выполнение при обучении оценки качества классификации и ошибок в эталонном множестве документов; учет степени тематической близости рубрик друг к другу; реализация интерактивной процедуры обучения классификатора.

Пример оценки эталонного множества документов

Несоответствие обучающих и обрабатываемых данных Прикладные проблемы: результаты классификации текстов могут быть неопределенными; результаты оценки качества обучения являются завышенными. Решение: выполнение оценки качества классификации в процессе обучения; обеспечение переобучения в процессе обработки новой информации; использование дополнительных словарей квазисинонимов для повышения полноты классификации.

Иерархический характер и использование нескольких принципов деления на классы Прикладные проблемы: сложность построения эффективных процедур классификации, основанных на использовании одной модели или метода для всех рубрик и уровней классификатора. Решение: поддержка нескольких типов признаков (лексических, грамматических, синтаксических); комбинирование различных методов классификации; поддержка режима фасетной классификации.

Комбинированный иерархический метод классификации

Базовые методы классификации

Пример реализации базовых методов

Комбинированные классификаторы рубрик

Интегральная оценка качества работы для массива «Reuters »

Оценка качества работы базовых методов для рубрик «Reuters-21578»

Политематический и зашумленный характер текстов Прикладные проблемы: сложность формирования решающих правил из-за негативного влияния посторонней информации и наложение рубрик друг на друга; неопределенность расположения в тексте информации, релевантной рубрике. Решение: идентификация форматов, языков и кодировок документов; очистка текста документов от элементов оформления; исключение из текстов вспомогательной информации; использование робастных алгоритмов оценивания параметров; выделение значимых фрагментов в текстах.

Выделение значимых фрагментов

Пример разметки текста с помощью иерархического покрытия

Наличие повторяющейся и дублирующей информации во входном потоке текстов Прикладные проблемы: сложность просмотра и анализа результатов классификации. Решение: упорядочение документов в рубриках с учетом их тематической близости друг к другу; выявление "почти дубликатов" документов; выявление основных тем документов в рубриках; автоматическое формирование сводных документов.

Пример выявления основных тем в рубрике при классификации