Кластеризация статей кафедральной базы знаний студент 4 курса И.И. Савин 1 руководитель: И.С. Игнатьев
Актуальность и проблемы Актуальность: Рост объема электронной текстовой информации => необходимы новые методы работы с большим количеством документов Проблемы: У текстовых документов нет четкой структуры Алгоритмы кластеризации числовых данных не приспособлены для работы с текстом 2
Общий алгоритм работы 3 Подготовка данных Кластеризация Загрузка данных Вычисление начальных коэффициентов сходства Формирование нового кластера Условия завершения Запись статистики термов в базу Текстовый документ Векторная модель документа Фильтрация, стемминг, удаление стоп-слов
Подготовка данных Основные этапы: Предварительная фильтрация – удаление тегов разметки, но также учет значимых тегов. Стемминг – выделение основы слова - терма. Алгоритм Портера. Удаление стоп-слов – удаление частых слов, не имеющих значения при определении тематики документа (союзы, местоимения...) 4 Результат: Векторная модель документа
5 Term IDDoc IDFrequency 4214 ………… Лучше чем цельные документы Но как с этим работать? 10 4+
Мера близости 6 A = (1,0,0,0,0) B = (0,0,0,0,1) C = (1,1,1,1,0) |A-B| = 2 |A-C| = 3 |B-C| = 5 Классический подход – Эвклидово расстояние: Коэффициент Джаккарда: Плохо работает, если кластеры нечетко разделены Но близость В и С не больше близости А и С
7 CB A Соседи Есть общий сосед Больше общих соседей – крепче(robust) связь в кластере Robust Clustering Algorithm
Итоговая мера близости 8 Идея формулы: Один из вариантов:
Особенности реализации 9 Легкое в установке и управлении расширение для популярного движка Mediawiki Учет веса слов в заголовках Время работы минут
Дальнейшая работа 10 Поиск наилучшей функции предсказания количества ссылок Улучшение стеммера русского языка Аппроксимация таблиц близости Корректный учет сложных конструкций разметки (формул, кода)
Вопросы 11