Расширение представления документов при поиске в Веб Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет
Методы представления документов в ИПС Единица информаци и Контекст Применение плоски й текст гипер- текст Файл++традиционное Параграф++ Фактографический поиск, обогащение информацией профилей документов Логический документ (файл и его окрестность) -+ Поиск логических документов, повышение качества классификации/кластеризации документов
Цели работы Помогает ли расширение представления повысить качество поиска? Какие объективные характеристики обуславливают улучшение?
Методы расширения Веб-документов Base (одна Веб-страница) SameDirectory (Веб-страница и ее соседи в рамках директории) SameServer (Веб-страница и ее соседи в рамках Веб-сервера) Greedy (Веб-страница и все ее соседи)
Влияние на классификацию Методы: Tfidf Probabalistic Indexing (prind) NaiveBayes (NB) Support Vector Machine (SVM) Критерий качества классификации: Accuracy = N correct / N incorrect * 100 %
Наборы данных Dataset 50 – набор 50 категорий из каталога List.Ru по 100 документов в каждой категории ПредставлениеОбщий размер представлений (Kb)(физ. страниц) Base Greedy SameServer SameDirесtory
Расширение представления повышает качество поиска
Стабильность результата Доля документов для обучения Номер случайной выборки Кол-во категорий Номер случайной выборки
Изменение объективных характеристик размер Словаря (слов) Пересечения test/train (%) Base SameDir SameServer Greedy
Обучение и тестирование на разных представлениях
Наблюдения Расширение представления позволяет повысить качество решения задач поиска Да Качество решения зависит от метода расширения Да Качество решения зависит от метода классификации Да Качество решения зависит от разделения представлений в train/test Нет Качество решения обуславливается изменением объективных характеристик Да