Кластеризация статей кафедральной базы знаний студент 4 курса И.И. Савин 1 руководитель: И.С. Игнатьев.

Презентация:



Advertisements
Похожие презентации
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Advertisements

Методы извлечения ключевых фраз Рязанцев Дмитрий 428.
Агрегация и интеллектуальный анализ проектов фриланс-бирж Докладчик: Савин Иван.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
Веб-система агрегации и интеллектуального анализа проектов фриланс-бирж Докладчик: Савин И.И. 1.
Разработка Web-сайтов. HTML-документ - текстовый документ содержимое которого размечено при помощи элементов языка HTML. Такие документы обычно имеют.
ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Составитель: Воронин Д.В. Учитель информатики МБОУ СОШ 5.
Определение новизны информации в новостном кластере.
ПОДГОТОВКА ЭЛЕКТРОННОЙ ТАБЛИЦЫ К РАСЧЕТАМ 1.Ввод текстовой информации в соответствующие ячейки (формирование заголовков) 2.Запись формул в вычисляемые.
Табличные вычисления на компьютере Электронные таблицы.
Анализ данных Кластеризация. План лекции Иерархические алгоритмы (пример: алгоритм ближайшего соседа) Итеративные алгоритмы (пример: k-means) Плотностные.
Проект : Ассоциативный поиск информации с помощью нейронных сетей. Задача: методы кластеризации данных.
1 класс Рекомендовано Министерством образования и науки Российской Федерации.
Основы информатики и программирования 1 курс экономический факультет 1 курс экономический факультет.
MS Excel Это электронные таблицы Назначение электронных таблиц: Организация как числовых, так и текстовых данных Организация как числовых, так и текстовых.
ВЫБОР СИСТЕМЫ ИНФОРМАТИВНЫХ ПРИЗНАКОВ ДЛЯ КЛАССИФИКАЦИИ ТРАНСПОРТНЫХ СРЕДСТВ НА ОСНОВЕ ЭВОЛЮЦИОННОГО ПОИСКА.
Методы определения семантической близости документов.
Заместитель директора по воспитательной работе Козлова М.И г.
Транксрипт:

Кластеризация статей кафедральной базы знаний студент 4 курса И.И. Савин 1 руководитель: И.С. Игнатьев

Актуальность и проблемы Актуальность: Рост объема электронной текстовой информации => необходимы новые методы работы с большим количеством документов Проблемы: У текстовых документов нет четкой структуры Алгоритмы кластеризации числовых данных не приспособлены для работы с текстом 2

Общий алгоритм работы 3 Подготовка данных Кластеризация Загрузка данных Вычисление начальных коэффициентов сходства Формирование нового кластера Условия завершения Запись статистики термов в базу Текстовый документ Векторная модель документа Фильтрация, стемминг, удаление стоп-слов

Подготовка данных Основные этапы: Предварительная фильтрация – удаление тегов разметки, но также учет значимых тегов. Стемминг – выделение основы слова - терма. Алгоритм Портера. Удаление стоп-слов – удаление частых слов, не имеющих значения при определении тематики документа (союзы, местоимения...) 4 Результат: Векторная модель документа

5 Term IDDoc IDFrequency 4214 ………… Лучше чем цельные документы Но как с этим работать? 10 4+

Мера близости 6 A = (1,0,0,0,0) B = (0,0,0,0,1) C = (1,1,1,1,0) |A-B| = 2 |A-C| = 3 |B-C| = 5 Классический подход – Эвклидово расстояние: Коэффициент Джаккарда: Плохо работает, если кластеры нечетко разделены Но близость В и С не больше близости А и С

7 CB A Соседи Есть общий сосед Больше общих соседей – крепче(robust) связь в кластере Robust Clustering Algorithm

Итоговая мера близости 8 Идея формулы: Один из вариантов:

Особенности реализации 9 Легкое в установке и управлении расширение для популярного движка Mediawiki Учет веса слов в заголовках Время работы минут

Дальнейшая работа 10 Поиск наилучшей функции предсказания количества ссылок Улучшение стеммера русского языка Аппроксимация таблиц близости Корректный учет сложных конструкций разметки (формул, кода)

Вопросы 11