ОБУЧЕНИЕ КЛАССИФИКАТОРОВ НА ОСНОВЕ ВЫДЕЛЕНИЯ ФРАГМЕНТОВ Васильев В.Г. vvg_2000@mail.ru.

Презентация:



Advertisements
Похожие презентации
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Advertisements

Национальный исследовательский университет « МЭИ » Кафедра прикладной математики Выпускная работа студента гр. А Бочарова Ивана на тему : « Исследование.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Машины опорных векторов Сильвестров А.С.. План Линейно-разделимая выборка Произвольные данные Ядровой переход Классификация на несколько классов.
Тема доклада Метод обнаружения изменений структуры веб-сайтов в системе сбора новостной информации.
3.1. Назначение онтологий. Информационный поиск..
Отдел Управления динамическими системами. АНАЛИЗ ДИССИПАТИВНОСТИ И ШУМОСТАБИЛЬНОСТИ НЕЛИНЕЙНЫХ ДИСКРЕТНЫХ ДИНАМИЧЕСКИХ СИСТЕМ М.М.Лычак Институт космических.
Об одном методе решения задачи периодического тематического поиска информации в Web Алексей Максаков
Понятие о методах Монте-Карло. Расчет интегралов 2.5. Расчет интегралов методом Монте-Карло.
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
Метод наименьших квадратов УиА 15/2 Айтуар А.. В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей.
МНОГОМЕРНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ. Совместное распределение термин, относящийся к распределению нескольких случайных величин, заданных на.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Анализ данных Лекция 5 Методы построения математических функций.
РОМИП в 2004 году М.С. Агеев, НИВЦ МГУ Губин М.В., ИК «Кодекс» Добров Б.В., НИВЦ МГУ Кураленок И.Е., СПбГУ Некрестьянов И.С., СПбГУ Плешко В.В., Гарант-Парк-Интернет.
1 Приближенные алгоритмы Комбинаторные алгоритмы.
Важность структурирования информации сайта Карпович Сергей Руководитель SEO Деловой Мир Онлайн.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
МЕТОД СКОЛЬЗЯЩЕГО КОНТРОЛЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА РЕКОМЕНДАТЕЛЬНЫХ ИНТЕРНЕТ- СЕРВИСОВ А.Ю. Каминская, Р.А. Магизов Научный руководитель – Д.И. Игнатов Государственный.
Распознавания речи распознавания речи. Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд.
Транксрипт:

ОБУЧЕНИЕ КЛАССИФИКАТОРОВ НА ОСНОВЕ ВЫДЕЛЕНИЯ ФРАГМЕНТОВ Васильев В.Г.

Задачи выделения фрагментов Задача поиска фрагментов релевантных запросу (Passage Retrieval) –вычисление весов фрагментов –вычисление функции правдоподобия запроса –построение вероятностных моделей запросов –использование методов машинного обучения –использование скрытых марковских моделей Задача классификации фрагментов в соответствии с классификатором (Passage Recognition) –обучение на полных текстах, выделение фрагментов, классификация фрагментов –классификация текста целиком, поиск наиболее релевантного фрагмента –оценивание параметров скрытой марковской модели на полных текстах, выделение фрагментов

Методы классификации текстов Метод машин опорных векторов (SVM) – рубрика отделяется от других классов с помощью гиперплоскости Байесовский классификатор на основе модели смеси распределений фон Мизеса-Фишера (VMF) – рубрика описывается с помощью точки на гиперсфере единичного радиуса

Модель фон Мизеса-Фишера

Методы выделения фрагментов в текстах Выделение фрагментов путем классификации предложений (SENT) Выделение фрагментов путем классификации блоков текста (TILE) Выделение фрагментов путем классификации иерархического покрытия (HIER) Выделение фрагментов с использованием оптимизационных методов (LS)

Выделение фрагментов путем классификации блоков текста

Выделение фрагментов путем классификации иерархического покрытия

Выделение фрагментов с использованием оптимизационных методов

Схема итерационного обучения отдельной рубрики Исходный массив Обучение модели Выделение фрагментов фрагмент

Схема классификации текстов с использованием фрагментов Текст Выделение фрагментов Текст фрагмент Построение вектора признаков фрагмент Классификация

Характеристики массивов текстов Массив Число документов Число рубрик Размер Reuters Mb 20 News Groups Mb ROMIP 2004 Legal Mb Массив Число документов Число рубрик Размер Reuters Mb 20 News Groups Mini Mb ROMIP 2004 Legal Mini Мб Полные массивы Сокращенные массивы текстов

Пример текста из массива 20NG

Пример текста из массива Reuters-21578

Пример текста из массива ROMIP 2004 Legal

Оценка качества классификации для массива ROMIP 2004 Legal Mini МетодF-мераМетодF-мера SVM0.37VMF0.45 SVM-SENT0.39VMF-SENT0.47 SVM-HIER0.38VMF-HIER0.46 SVM-TILE0.39VMF-TILE0.46 SVM-LS0.50VMF-LS0.37

Оценка точности и полноты классификации МетодТочностьПолнотаF-мера SVM SVM-LS МетодТочностьПолнотаF-мера SVM SVM-LS News Group Mini Romip 2004 Legal Mini

Качество классификации для массива 20 NG от размера обучающего множества

Качество классификации для массива Reuters от размера обучающего множества

Качество классификации для массива 20 NG от числа итераций

Время обучения и классификации массива 20 NG от числа итераций

Среднее число выделяемых предложений для массива 20 NG в зависимости от числа итераций

Выводы Обучения классификаторов с использованием фрагментов более эффективно при маленьких размерах обучающих выборок В некоторых случаях использование данного метода может заметно улучшить полноту классификации Для сходимости метода достаточно выполнения нескольких итераций

Направления дальнейших исследований Анализ характера выделяемых фрагментов и областей применимости рассмотренного подхода Использование методов рандомизации (бутстреп метода) для расширения объема обучающих выборок Выделение фрагментов с использованием правил на специальном языке