Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
Кластеризация или классификация? Кластеризация разбивает множество объектов на группы, которые определяются только ее результатом. Классификация относит каждый объект к одной из заранее определенных групп.
Выбор свойств, характеризующих объекты: количественные характеристики (координаты, интервалы…); качественные характеристики (цвет, статус, воинское звание…).
Где можно использовать кластеризацию?
КЛАСТЕРИЗАЦИЯ НОВОСТЕЙ. Состав ключевых слов, определяющих конкретное событие, должен быть одинаков.
Документы за какой промежуток времени мы смотрим? Временное окно нужно большое. Многие издания могут запаздывать не на часы, а на целые дни при публикации новостей, посвященных определенному событию.
Как сравнивать? В качестве меры подобия нужно использовать не просто набор ключевых слов, а так называемый фокус события.
Что такое фокус события? ФОКУС СОБЫТИЯ - Совокупность объектов, каким-либо образом взаимодействующих в новости, и их тематического окружения (синонимов, описаний, дополнений объектов и других параметров, характеризующих рассматриваемое событие).
Фокус события Кто? В событии участвует не более двух главных объектов, остальные второстепенные. Когда? Определяется временем публикации новости о событии. Где? Определяется названием местности (тематическое окружение – названия) Что произошло? Описание события - ключевые слова, определяющие характер события (тематическое окружение - существительные) Как? Ключевые слова, дающие представление о действиях, происшедших в событии (тематическое окружение - глаголы)
Фокус события Значение и влияние. Здесь могут быть второстепенные объекты и их тематическое окружение. Для чего он нужен? Создание осмысленной аннотации новости - наиболее информативной частью любой новости будут предложения, которые содержат вместе как извлеченные объекты, так максимальное количество ключевых слов из тематического окружения события. Определение дублей одной и той же новости - фокус, состоящий из набора ключевых слов и входящих в несколько новостей идентичного содержания, будет совпадать, что позволит фильтровать дубли.
1. Сегментация статей - задача разделения непрерывного потока на новости, связанные одним и тем же событием. 2. Отслеживание новостной дорожки - нахождение всех новостей, которые похожи на множество эталонных новостей. Используется для отлова всех потенциально интересных документов по теме, которые могут появиться в будущем. 3. Определение дорожки - кластеризация всех новостей, порожденных конкретным событием. 4. Определение первой новости в дорожке -для нахождения самого первого сообщения в новом событии. 5. Определение связей (Link Detection) - позволяет определить, порождены ли две новости одним и тем же событием.
Используем словари и тезаурусы ля группировки словоформ в группы синонимов