Обнаружение структурного подобия HTML-документов И. Некрестьянов Е. Павлова

Презентация:



Advertisements
Похожие презентации
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Advertisements

Методы предварительной обработки данных для алгоритма Клейнберга А. Корявко И. Некрестьянов
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил.
Язык запросов XML. XML (Extensible Markup Language) - это новый SGML-производный язык разметки документов, позволяющий структурировать информацию разного.
Страничные факторы ранжирования Михаил Костин, Mail.ru.
Тема доклада Метод обнаружения изменений структуры веб-сайтов в системе сбора новостной информации.
Расширение представления документов при поиске в Веб Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 8.
Информационный поиск. План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения.
Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Информационный поиск в Интернете Павел Морозов
9 класс Запросы являются одним из основных инструментов выборки и обработки данных в таблицах базы данных. Запросы используют для анализа, просмотра и.
Выполнил: Горелов С.С. Под руководством: с.н.с. Афонин С.А., проф. Васенин В.А. Усечение пространства поиска в полуструктурированных данных при помощи.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
Этапы решения задач на компьютере.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Применение генетического программирования для реализации систем со сложным поведением Санкт-Петербургский Государственный Университет Информационных Технологий,
Транксрипт:

Обнаружение структурного подобия HTML-документов И. Некрестьянов Е. Павлова

Задача извлечения информации Информация с регулярной структурой зачастую скрыта среди презентационных деталей Детали форматирования могут различаться даже в одном источнике Огромный объем информации => Извлечение структурированной информации и выполнение запросов

Типы подходов к извлечению информации Специализированные языки Использование HTML-разметки Работа с текстами на естественном языке Индуктивные подходы Моделирование искомой информации Использование онтологии

Рассматриваемая задача Контекст: Автоматическая генерация посредника для извлечения информации подразумевает наличие образцов. Проблема: Как подбирать их автоматически? Общая идея: Кластеризация документов по структурному подобию.

Агломеративно-иерархическая кластеризация Стандартный статистический метод Результат – дерево (не надо знать искомое число кластеров) Построение «снизу- вверх»

Как представлять документы? Basis(k, l, attr) Модель DOM Имя тэга Входящий путь длины k Потомки на глубину l Атрибуты тэга … k l

Как вычислять веса? Наличие признака (0/1) Количество вхождений признака Частота встречаемости признака TFIDF

Что такое хороший результат? Классический подход – сравнение с идеалом или другим результатом Цель: автоматически обработать максимум документов «Хороший» кластер: – Все документы обрабатываются одним посредником – Кластер достаточно велик (N>2)

Меры для оценки Энтропия (характеризует «чистоту» кластеров) Доля документов, которые находятся в «хороших» кластерах на уровне i (WScore i ) Максимально возможная доля документов в «хороших» кластерах по всем разбиениям на кластеры, встречающихся в построенном дереве (WScore)

WScore i и WScore WScore 2 = 0WScore = 4/6

Постановка экспериментов Наборы данных: – List.Ru (11 классов) – IMDB (34 класса) Рассматривались подмножества размером от 1000 до 3000 документов

Способы сбора идеальной информации 1. Результаты применения автоматического метода (сложно реализуемо) 2. Создать всех посредников вручную (очень трудоемко, нет гарантии) 3. Создать часть посредников вручную и остальные документы разбить на классы по типу возникающих ошибок (аппроксимация варианта 2)

Наблюдаемые закономерности Расширение признаков вниз ухудшает результаты Информация об атрибутах бесполезна Входящие пути полезны (оптимальная длина зависит от набора) Сложные схемы взвешивания имеют смысл (большинство наилучших результатов получено с TFIDF)