Об одном методе решения задачи периодического тематического поиска информации в Web Алексей Максаков bruzz@yandex.ru.

Презентация:



Advertisements
Похожие презентации
Задача построения расписания конфигураций с ограниченной глубиной узлов для беспроводных сенсорных сетей Евгений Наградов.
Advertisements

Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Подход к выявлению подмножеств похожих документов А. Антонов, С. Баглей, В. Мешков { alexa, baglei, galaktika.ru.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
© Московский центр Интернет-образования. Белкин П.Ю., Общие вопросы организации поиска информации в Internet.
ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
3.1. Назначение онтологий. Информационный поиск..
Тема Структура представления информации в мировых информационных сетях.
ОБУЧЕНИЕ КЛАССИФИКАТОРОВ НА ОСНОВЕ ВЫДЕЛЕНИЯ ФРАГМЕНТОВ Васильев В.Г.
Основные понятия ИО. Исследование операций Комплексная математическая дисциплина, занимающаяся построением, анализом и применением математических моделей.
Методы обработки графических изображений. Распознавание человека по изображению лица Плюсы: - не требуется специальное или дорогостоящее оборудование;
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Ачинский район, 2010 г. Районный конкурс педагогических работников – молодых специалистов «ПОЗИТИВ» Богданова Дарья Вячеславовна, учитель информатики МОУ.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Выполнил: Горелов С.С. Под руководством: с.н.с. Афонин С.А., проф. Васенин В.А. Усечение пространства поиска в полуструктурированных данных при помощи.
Основные элементы методологии международного стандарта ISO Кузьмин Александр Леонидович главный экономист Департамента регулирования расчетов Банка.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Модели принятия решений Задачи распознавания Детерминированный случай Распознавание при стохастических данных Показатели качества распознавания Оптимальный.
Транксрипт:

Об одном методе решения задачи периодического тематического поиска информации в Web Алексей Максаков

Периодическая доставка информации Периодический тематический поиск в Web Подписка на тематические издания Высокое качество информации Низкая оперативность Низкая полнота информации Высокая оперативность поиска Высокая полнота информации Низкое качество результатов поиска WEB

Области применения При наличии потребности в периодическом поиске специализированной информации: В системах непрерывного обучения Для тематического мониторинга в рамках профессиональной деятельности: Наблюдение за развитием области отзывами потребителей состоянием рынка В научных исследованиях

Особенности задачи Свойства пространства поиска (Web): Динамичность Большой объем доступной информации Следствие: наличие ограничений на вычислительную сложность используемых алгоритмов Свойства информационной потребности: Информационная потребность пользователя имеет определенную тематическую направленность и слабо изменяется со временем Поиск носит периодический характер Следствие: с практической точки зрения оправдано подробное описание информационной потребности

Возможные способы решения задачи периодического ИП в Web (?) Периодическое выполнение запросов к СПКС [Google Alerts, NorthernLight Search Alerts] –высокая полнота –относительно низкая точность поиска Периодический обход подмножества Web –Низкая полнота поиска –Высокая оперативность –Качество поиска зависит от выбора способа фильтрации Отслеживание обновлений в тематических каталогах –высокая релевантность документов теме –низкая полнота и оперативность –в тематических каталогах используется жесткая иерархия каталогов, которая может не содержать интересующей пользователя темы

Предложенный подход решения задачи Запрос пользователя представляется в виде обучающей выборки и запроса по ключевым словам Процесс поиска состоит из двух этапов: I. Отбор документов из Web с помощью СПКС II. Уточнение результатов поиска с помощью классификатора, обученного на предоставленной пользователем выборке Данный подход сочетает преимущества поиска с помощью СПКС и классификации текстов следующим образом: Отбор документов с помощью запросов к СПКС обеспечивает высокую полноту поиска и сокращает объем анализируемой информации Использование классификатора обеспечивает высокую релевантность полученных пользователем документов

Схема работы предложенного подхода Система периодического тематического поиска Задает обучающую выборку Обучающая выборка Генератор запросов по КС Классификатор Возвращает ссылки на релевантные документы - запрос по КС - обучающая выборка - гиперссылки на документы - набор документов Возвращает сгенерированный запрос по КС Запрос по КС множество анализируемых документов таймер Web СПКС Отбор документов Web

Показатели качества поисковой системы

Алгоритмы классификации Требования к алгоритмам классификации в рамках предложенного подхода: высокая точность и полнота результатов классификации низкая вычислительная сложность классификации (необходимость обработки большого объема данных) низкая вычислительная сложность обучения (для обеспечения обратной связи в многопользовательской системе) Типы задач классификации: Бинарная (С=2) Используется для уточнения результатов поиска Мультиклассовая (С>2) Используется для внутренней рубрикации

Модификация наивного алгоритма Байеса Недостатки наивного алгоритма Байеса: –Предпочтение классов с большим количеством примеров –Предпочтение классов с большим количеством устойчивых словосочетаний Предлагаемые решения: –Реверсирование –Нормализация весов признаков

Алгоритм ModFisher. Обучение Идея алгоритма заключается в построении нескольких гиперплоскостей, вдоль нормалей к каждой из которой документы разных классов максимально разнесены Описание алгоритма обучения: 1. Методом градиентного подъема находим локальный максимум индекса Фишера. 2. Сортируем все документы по значению их проекции на полученное направление (вектор) 3. Отбрасываем область только положительных (отрицательных) документов с краев направления. 4. Запоминаем направление, точки отсечения положительных и отрицательных документов, а также оптимальную точку их разделения (по F- мере) 5. Если осталось более 2 документов, повторяем процесс от шага 1 с оставшимися документами D2D2 D1D1 E2E2 E1E1

Алгоритм ModFisher. Классификация Вариант 1: Проверка по областям отсечения для каждого направления. - Если тестовый документ попадает в область отсечения, то выдаем ему соответствующую метку и выходим из алгоритма. - Если документ не попал в область отсечения до последнего направления, используем оптимальную точку разделения для определения класса Вариант 2: Использование другого алгоритма классификации на новом векторном пространстве. В ходе экспериментов вариант 1 показал лучшие результаты (более 8% для набора ROMIP-Legal для алгоритма C4.5)

Нахождение дискриминанта Фишера. где

Алгоритм ModSimpl. Анализ Эффективно решает задачу бинарной классификации (сравнимо с SVM, превосходит алгоритм Байеса) Более высокая скорость обучения алгоритма по сравнению с SVM O(m*n + n*log(n)) против O(m*n a ) операций, где a ~ Алгоритм является масштабируемым по оперативной памяти: требуется O(n+m) ячеек При обучении на большом количестве классов точность классификации ниже, чем у модифицированного алгоритма Байеса.

Методика оценки качества работы алгоритмов классификации Тестовые наборы данных для оценки качества алгоритмов Коллекция ОписаниеКоличество классов Количество документов Newsgroup-20Группы обсуждений в Usenet ROMIP-Legal Коллекция нормативно- правовых документов Reuters-21578Новостные сообщения Reuters 90(10)12902 OHSUMEDАннотации медицинских статей

Сравнение алгоритмов

Качество решения задачи бинарной классификации

Выводы(?) За критерий оптимальности алгоритма принимается отношение точности классификации к вычислительной сложности обучения В случае малого объема обучающей выборки предпочтительно использование алгоритма SVM Модифицированный алгоритм наивного алгоритма Байеса предпочтительнее для решения задачи классификации в случае наличия в обучающей выборке большого количества не равно мощных классов Алгоритм ModSimpl предпочтительнее для решения задачи бинарной классификации при большом объеме обучающей выборки Алгоритм ModSimpl слабо устойчив к наличию ошибок в обучающей выборке

Апробация предложенного подхода. Методология Анализируемое множество документов: –Реальные данные Web, проиндексированные СПКС Google –Обновления в индексе СПКС AllTheWeb за 2 недели Оцениваемые показатели: –точность, мера F1 Характеристики обучающей выборки: –30 примеров релевантных документов –Общая для всех тем коллекция нерелевантных документов + 15 примеров нерелевантных документов Темы поиска: –Локальные поисковые системы –Способы сопоставления признаков документам –Анализ рынка недвижимости Москвы –Настройка подвески велосипеда –Имитационное моделирование распределенных систем

Результаты апробации предложенного подхода на реальных данных

Спасибо за внимание