Расширение представления документов при поиске в Веб Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет.

Презентация:



Advertisements
Похожие презентации
Обнаружение структурного подобия HTML-документов И. Некрестьянов Е. Павлова
Advertisements

Методы предварительной обработки данных для алгоритма Клейнберга А. Корявко И. Некрестьянов
РОМИП в 2004 году М.С. Агеев, НИВЦ МГУ Губин М.В., ИК «Кодекс» Добров Б.В., НИВЦ МГУ Кураленок И.Е., СПбГУ Некрестьянов И.С., СПбГУ Плешко В.В., Гарант-Парк-Интернет.
Лекция 21 Лекция 21 Логическая и физическая схема организации пространства в документальных БД. Примеры моделей хранения и организации доступа.
Тема доклада Метод обнаружения изменений структуры веб-сайтов в системе сбора новостной информации.
Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.
Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
Матвеев Евгений Валерьевич Электронное учебное пособие «Информатика» Курсовая работа Научный руководитель: к.п.н. А.В. Самохвалов Тамбовский государственный.
Базы данных. Информационная система Учитель информатики Букина Наталья Сергеевна МБОУ СОШ 8 г. Поронайска.
3.1. Назначение онтологий. Информационный поиск..
М.И. Скорик Презентация на тему: «Виды документальных информационных систем»
Файл это поименованная область на диске или другом носителе информации. В файлах могут храниться тексты программ, документы, готовые к выполнению программы.
Андреев Андрей, технический директор INTECCO CMS. История, рынок и проблемы. Бесплатный семинар интернет-консалтинговой компании INTECCO.
Работа с объектами базы данных в системе управления базой банных Microsoft Access Еремина Т.Ю., учитель информатики МОУ СОШ 12.
Важность структурирования информации сайта Карпович Сергей Руководитель SEO Деловой Мир Онлайн.
Вебометрические индикаторы и ранжирование сайтов Группа Cybermetrics Lab.Cybermetrics Lab Cайт Webometrics Ranking of World Universities.Webometrics Ranking.
Методика исследования компьютерных носителей информации Макаренков Д.Е.
Феномен современного контекста мая 2010г Надежда Давыдова Руководитель департамента поддержки клиентов ЗАО «Бегун»
Элективные курсы для предпрофильной подготовки учащихся 9-го класса по математике Составители: Тимофеева Ирина Витальевна, Лазарева Лариса Геннадьевна.
«Электронная библиотечная система «Айбукс.ру» Ibooks.ru Библиотека Санкт-Петербургского университета управления и экономики.
Транксрипт:

Расширение представления документов при поиске в Веб Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет

Методы представления документов в ИПС Единица информаци и Контекст Применение плоски й текст гипер- текст Файл++традиционное Параграф++ Фактографический поиск, обогащение информацией профилей документов Логический документ (файл и его окрестность) -+ Поиск логических документов, повышение качества классификации/кластеризации документов

Цели работы Помогает ли расширение представления повысить качество поиска? Какие объективные характеристики обуславливают улучшение?

Методы расширения Веб-документов Base (одна Веб-страница) SameDirectory (Веб-страница и ее соседи в рамках директории) SameServer (Веб-страница и ее соседи в рамках Веб-сервера) Greedy (Веб-страница и все ее соседи)

Влияние на классификацию Методы: Tfidf Probabalistic Indexing (prind) NaiveBayes (NB) Support Vector Machine (SVM) Критерий качества классификации: Accuracy = N correct / N incorrect * 100 %

Наборы данных Dataset 50 – набор 50 категорий из каталога List.Ru по 100 документов в каждой категории ПредставлениеОбщий размер представлений (Kb)(физ. страниц) Base Greedy SameServer SameDirесtory

Расширение представления повышает качество поиска

Стабильность результата Доля документов для обучения Номер случайной выборки Кол-во категорий Номер случайной выборки

Изменение объективных характеристик размер Словаря (слов) Пересечения test/train (%) Base SameDir SameServer Greedy

Обучение и тестирование на разных представлениях

Наблюдения Расширение представления позволяет повысить качество решения задач поиска Да Качество решения зависит от метода расширения Да Качество решения зависит от метода классификации Да Качество решения зависит от разделения представлений в train/test Нет Качество решения обуславливается изменением объективных характеристик Да