Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемwww.dialog-21.ru
1 Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
2 Особенности реальных массивов текстов Недостаточное количество обучающих примеров Наличие ошибок в эталонной классификации Несоответствие обучающих и обрабатываемых данных Совместное использование нескольких принципов деления на классы Политематический и зашумленный характер текстов Сложность интерпретации результатов классификации Наличие повторяющейся и дублирующей информации
3 Организационные проблемы Ограниченный доступ разработчиков систем автоматической классификации к исходным данным и массивам текстов Выполнение настройки и использования средств классификации пользователями, которые не являются специалистами в области автоматической обработки текстов
4 Комплексная технология классификации текстов
5 Недостаточное количество обучающих примеров Прикладные проблемы: невозможность построения правил классификации для большинства методов, основанных на обучении по примерам; низкая надежность оценки качества обучения. Решение: поддержка совместного использования трех типов решающих правил для рубрик: статистических (обучаемых на примерах документов), логических (задаются экспертами на специальном информационно-поисковом языке), шаблонных (задаются экспертами в виде регулярных выражений).
6 Наличие ошибок в эталонной классификации Прикладные проблемы: формирование ошибочных правил классификации; результаты оценки качества обучения оказываются некорректными. Решение: выполнение при обучении оценки качества классификации и ошибок в эталонном множестве документов; учет степени тематической близости рубрик друг к другу; реализация интерактивной процедуры обучения классификатора.
7 Пример оценки эталонного множества документов
8 Несоответствие обучающих и обрабатываемых данных Прикладные проблемы: результаты классификации текстов могут быть неопределенными; результаты оценки качества обучения являются завышенными. Решение: выполнение оценки качества классификации в процессе обучения; обеспечение переобучения в процессе обработки новой информации; использование дополнительных словарей квазисинонимов для повышения полноты классификации.
9 Иерархический характер и использование нескольких принципов деления на классы Прикладные проблемы: сложность построения эффективных процедур классификации, основанных на использовании одной модели или метода для всех рубрик и уровней классификатора. Решение: поддержка нескольких типов признаков (лексических, грамматических, синтаксических); комбинирование различных методов классификации; поддержка режима фасетной классификации.
10 Комбинированный иерархический метод классификации
11 Базовые методы классификации
12 Пример реализации базовых методов
13 Комбинированные классификаторы рубрик
14 Интегральная оценка качества работы для массива «Reuters »
15 Оценка качества работы базовых методов для рубрик «Reuters-21578»
16 Политематический и зашумленный характер текстов Прикладные проблемы: сложность формирования решающих правил из-за негативного влияния посторонней информации и наложение рубрик друг на друга; неопределенность расположения в тексте информации, релевантной рубрике. Решение: идентификация форматов, языков и кодировок документов; очистка текста документов от элементов оформления; исключение из текстов вспомогательной информации; использование робастных алгоритмов оценивания параметров; выделение значимых фрагментов в текстах.
17 Выделение значимых фрагментов
18 Пример разметки текста с помощью иерархического покрытия
19 Наличие повторяющейся и дублирующей информации во входном потоке текстов Прикладные проблемы: сложность просмотра и анализа результатов классификации. Решение: упорядочение документов в рубриках с учетом их тематической близости друг к другу; выявление "почти дубликатов" документов; выявление основных тем документов в рубриках; автоматическое формирование сводных документов.
20 Пример выявления основных тем в рубрике при классификации
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.