Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемЗоя Недошивина
2 Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
3 Кластеризация или классификация? Кластеризация разбивает множество объектов на группы, которые определяются только ее результатом. Классификация относит каждый объект к одной из заранее определенных групп.
4 Выбор свойств, характеризующих объекты: количественные характеристики (координаты, интервалы…); качественные характеристики (цвет, статус, воинское звание…).
5 Где можно использовать кластеризацию?
6 КЛАСТЕРИЗАЦИЯ НОВОСТЕЙ. Состав ключевых слов, определяющих конкретное событие, должен быть одинаков.
7 Документы за какой промежуток времени мы смотрим? Временное окно нужно большое. Многие издания могут запаздывать не на часы, а на целые дни при публикации новостей, посвященных определенному событию.
8 Как сравнивать? В качестве меры подобия нужно использовать не просто набор ключевых слов, а так называемый фокус события.
9 Что такое фокус события? ФОКУС СОБЫТИЯ - Совокупность объектов, каким-либо образом взаимодействующих в новости, и их тематического окружения (синонимов, описаний, дополнений объектов и других параметров, характеризующих рассматриваемое событие).
10 Фокус события Кто? В событии участвует не более двух главных объектов, остальные второстепенные. Когда? Определяется временем публикации новости о событии. Где? Определяется названием местности (тематическое окружение – названия) Что произошло? Описание события - ключевые слова, определяющие характер события (тематическое окружение - существительные) Как? Ключевые слова, дающие представление о действиях, происшедших в событии (тематическое окружение - глаголы)
11 Фокус события Значение и влияние. Здесь могут быть второстепенные объекты и их тематическое окружение. Для чего он нужен? Создание осмысленной аннотации новости - наиболее информативной частью любой новости будут предложения, которые содержат вместе как извлеченные объекты, так максимальное количество ключевых слов из тематического окружения события. Определение дублей одной и той же новости - фокус, состоящий из набора ключевых слов и входящих в несколько новостей идентичного содержания, будет совпадать, что позволит фильтровать дубли.
12 1. Сегментация статей - задача разделения непрерывного потока на новости, связанные одним и тем же событием. 2. Отслеживание новостной дорожки - нахождение всех новостей, которые похожи на множество эталонных новостей. Используется для отлова всех потенциально интересных документов по теме, которые могут появиться в будущем. 3. Определение дорожки - кластеризация всех новостей, порожденных конкретным событием. 4. Определение первой новости в дорожке -для нахождения самого первого сообщения в новом событии. 5. Определение связей (Link Detection) - позволяет определить, порождены ли две новости одним и тем же событием.
13 Используем словари и тезаурусы ля группировки словоформ в группы синонимов
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.