Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемЖанна Янюшкина
1 Кластеризация статей кафедральной базы знаний студент 4 курса И.И. Савин 1 руководитель: И.С. Игнатьев
2 Актуальность и проблемы Актуальность: Рост объема электронной текстовой информации => необходимы новые методы работы с большим количеством документов Проблемы: У текстовых документов нет четкой структуры Алгоритмы кластеризации числовых данных не приспособлены для работы с текстом 2
3 Общий алгоритм работы 3 Подготовка данных Кластеризация Загрузка данных Вычисление начальных коэффициентов сходства Формирование нового кластера Условия завершения Запись статистики термов в базу Текстовый документ Векторная модель документа Фильтрация, стемминг, удаление стоп-слов
4 Подготовка данных Основные этапы: Предварительная фильтрация – удаление тегов разметки, но также учет значимых тегов. Стемминг – выделение основы слова - терма. Алгоритм Портера. Удаление стоп-слов – удаление частых слов, не имеющих значения при определении тематики документа (союзы, местоимения...) 4 Результат: Векторная модель документа
5 5 Term IDDoc IDFrequency 4214 ………… Лучше чем цельные документы Но как с этим работать? 10 4+
6 Мера близости 6 A = (1,0,0,0,0) B = (0,0,0,0,1) C = (1,1,1,1,0) |A-B| = 2 |A-C| = 3 |B-C| = 5 Классический подход – Эвклидово расстояние: Коэффициент Джаккарда: Плохо работает, если кластеры нечетко разделены Но близость В и С не больше близости А и С
7 7 CB A Соседи Есть общий сосед Больше общих соседей – крепче(robust) связь в кластере Robust Clustering Algorithm
8 Итоговая мера близости 8 Идея формулы: Один из вариантов:
9 Особенности реализации 9 Легкое в установке и управлении расширение для популярного движка Mediawiki Учет веса слов в заголовках Время работы минут
10 Дальнейшая работа 10 Поиск наилучшей функции предсказания количества ссылок Улучшение стеммера русского языка Аппроксимация таблиц близости Корректный учет сложных конструкций разметки (формул, кода)
11 Вопросы 11
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.