Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил.

Презентация:



Advertisements
Похожие презентации
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Advertisements

Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Обнаружение структурного подобия HTML-документов И. Некрестьянов Е. Павлова
Тема доклада Метод обнаружения изменений структуры веб-сайтов в системе сбора новостной информации.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Проверка статистических гипотез Лекция 7 (продолжение) 1.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
Анализ предметных взаимосвязей по результатам оценки знаний студентов Научный руководитель: Штейнберг А.М Выполнила: Сухорукова Ольга.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Формы организации исследовательской работы с учащимися.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Анализ связи между атрибутивными признаками. Взаимосвязь между атрибутивными признаками анализируют­ся посредством таблиц взаимной сопряженности. Они.
3.1. Назначение онтологий. Информационный поиск..
© ElVisti Лекция 7 Кластерный анализ и информационный поиск Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Транксрипт:

Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил Киселев Megaputer Intelligence Ltd

Автоматическая кластеризация текстов - актуальная и до сих пор не имеющая хорошего универсального решения проблема. Основные трудности: Неоднозначность определения смысловой близости текстов. Часто - необходимость работать с очень высоко размерными пространствами. Требования интерпретируемости - смысловая пометка кластеров, объяснение отнесения текста к кластеру.

Наиболее распространенный подход - метрический пространство признаков тексты кластеры

Идеи предлагаемого альтернативного подхода: Каждый текст представляется как множество его ключевых термов (а не как точка в пространстве признаков – с одним и тем же набором признаков для всех термов) Близость текстов вычисляется на основе попарной близости их ключевых термов Оценка близости термов производится на основе иерархического тезауруса (онтологии)

Статистический подход к построению множества ключевых термов Критерий – существенное превышение частоты терма в тексте над средней частотой Дополнительное условие – никакие два ключевых терма не должны быть связаны отношением гипернимии

Мера значимости превышения частоты терма над средней: f(t) – средняя частота терма t n(t) – число термов t в тексте n – общее число термов в тексте p(t) - вероятность того, что, сделав n испытаний с априорной вероятностью успеха f(t), мы получим n(t) или более успехов

Критерий включения терма в множество ключевых термов

Средняя частота терма Частота терма в большом текстовом корпусе (по возможности – относящемся к той же тематике, что и кластеризуемый корпус), из текстов которого исключены все ключевые термы

Близость 2 термов Величина, обратная расстоянию между этими термами в графе, представляющем онтологию, + 1

Близость 2 текстов где

Автоматическое построение иерархического тезауруса Теоретические основы: Распределительная гипотеза. С емантически подобные термы встречаются, как правило, в похожем лингвистическом контексте. Частотная гипотеза. Ч астота встречаемости гипернимов в текстах больше, чем у любого их гипонима.

Автоматическое построение иерархического тезауруса Исходные данные: Матрица совместной встречаемости лексем, рассчитанная на большом текстовом корпусе. Ее элементы – вероятности, что два терма будут обнаружены в N или более текстов одновременно при предположении об их независимом распределении в корпусе. Здесь N – наблюдаемое число документов, включающих оба этих терма.

Автоматическое построение иерархического тезауруса Алгоритм: Бинарная аггломеративная кластеризация термов с мерой расстояния между термами, задаваемой матрицей совместной встречаемости лексем Пометка кластеров – узлов образующегося дерева 3мя наиболее частыми лексемами

Пример – фрагмент получившегося иерархического тезауруса

Метрические методы кластеризации, использованные для целей сравнения MSEL – отбор размерностей, соответствующих лексемам с максимальной суммой tfidf по кластеризуемому корпусу MLSA – отбор размерностей на основе латентного семантического анализа

Критерии сравнительной оценки Точность кластеризации – насколько найденные кластеры соответствуют заранее заданному разбиению корпуса на смысловые категории Интерпретируемость кластеризации – насколько понятна и адекватна смысловая пометка найденных кластеров

Точность кластеризации – мера взаимной информации Шеннона между идентификатором кластера и смысловой категорией m(i,j) - количество текстов из смыслового класса I, отнесенных к кластеру j

Текстовые корпуса, использованные для сравнения Корпус Wl. Случайная выборка 965 веб-сраниц русского Интернета общим объемом 4.2 MB. 36 классов. Корпус Wh. Та же выборка, 59 классов. Корпус Ql. Набор страниц из выборки русского Интернета, предоставленной Яндексом, которые содержат фамилию Столыпин. 56 текстов общим объемом 1.7МВ. 7 классов. Корпус Qh. Тот же корпус, 12 классов. Корпус N. Выборка текстов новостей, из архива, предоставленного компанией Яндекс («обычная неделя»). 430kB в 295 текстах. 16 классов. Корпус H. Заголовки новостей из того же самого архива. Общий объем – 135kB. Количество текстов – класс. Корпус Cl. Статьи уголовного кодекса РФ, посвященные отдельным видам преступлений. 276 текстов, 270kB. В качестве смысловых классов служат 6 разделов этой части УК. Корпус Ch. Статьи УК, но классифицированные по 19 его главам.

Результаты по точности кластеризации

Пример сравнения пометки кластеров

Выводы Результаты сравнения подтверждают предположение о том, что предлагаемый метод должен иметь преимущество в случае сильного тематического разнообразия анализируемого корпуса либо малого размера отдельных текстов. Предлагаемый метод приводит к гораздо более понятной и точной смысловой пометке найденных кластеров. Дополнительный результат - разработан метод автоматического создания напоминающей иерархический тезаурус структуры на базе матрицы совместной встречаемости лексем, построенной на большом текстовом корпусе.