Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Особенности реальных массивов текстов Недостаточное количество обучающих примеров Наличие ошибок в эталонной классификации Несоответствие обучающих и обрабатываемых данных Совместное использование нескольких принципов деления на классы Политематический и зашумленный характер текстов Сложность интерпретации результатов классификации Наличие повторяющейся и дублирующей информации
Организационные проблемы Ограниченный доступ разработчиков систем автоматической классификации к исходным данным и массивам текстов Выполнение настройки и использования средств классификации пользователями, которые не являются специалистами в области автоматической обработки текстов
Комплексная технология классификации текстов
Недостаточное количество обучающих примеров Прикладные проблемы: невозможность построения правил классификации для большинства методов, основанных на обучении по примерам; низкая надежность оценки качества обучения. Решение: поддержка совместного использования трех типов решающих правил для рубрик: статистических (обучаемых на примерах документов), логических (задаются экспертами на специальном информационно-поисковом языке), шаблонных (задаются экспертами в виде регулярных выражений).
Наличие ошибок в эталонной классификации Прикладные проблемы: формирование ошибочных правил классификации; результаты оценки качества обучения оказываются некорректными. Решение: выполнение при обучении оценки качества классификации и ошибок в эталонном множестве документов; учет степени тематической близости рубрик друг к другу; реализация интерактивной процедуры обучения классификатора.
Пример оценки эталонного множества документов
Несоответствие обучающих и обрабатываемых данных Прикладные проблемы: результаты классификации текстов могут быть неопределенными; результаты оценки качества обучения являются завышенными. Решение: выполнение оценки качества классификации в процессе обучения; обеспечение переобучения в процессе обработки новой информации; использование дополнительных словарей квазисинонимов для повышения полноты классификации.
Иерархический характер и использование нескольких принципов деления на классы Прикладные проблемы: сложность построения эффективных процедур классификации, основанных на использовании одной модели или метода для всех рубрик и уровней классификатора. Решение: поддержка нескольких типов признаков (лексических, грамматических, синтаксических); комбинирование различных методов классификации; поддержка режима фасетной классификации.
Комбинированный иерархический метод классификации
Базовые методы классификации
Пример реализации базовых методов
Комбинированные классификаторы рубрик
Интегральная оценка качества работы для массива «Reuters »
Оценка качества работы базовых методов для рубрик «Reuters-21578»
Политематический и зашумленный характер текстов Прикладные проблемы: сложность формирования решающих правил из-за негативного влияния посторонней информации и наложение рубрик друг на друга; неопределенность расположения в тексте информации, релевантной рубрике. Решение: идентификация форматов, языков и кодировок документов; очистка текста документов от элементов оформления; исключение из текстов вспомогательной информации; использование робастных алгоритмов оценивания параметров; выделение значимых фрагментов в текстах.
Выделение значимых фрагментов
Пример разметки текста с помощью иерархического покрытия
Наличие повторяющейся и дублирующей информации во входном потоке текстов Прикладные проблемы: сложность просмотра и анализа результатов классификации. Решение: упорядочение документов в рубриках с учетом их тематической близости друг к другу; выявление "почти дубликатов" документов; выявление основных тем документов в рубриках; автоматическое формирование сводных документов.
Пример выявления основных тем в рубрике при классификации