Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.

Презентация:



Advertisements
Похожие презентации
РАДИОМЕТРИЧЕСКИЕ СВОЙСТВА СНИМКОВ И ИХ КОМПЬЮТЕРНАЯ ОБРАБОТКА.
Advertisements

Понятие объектов. Свойства, параметры, действие и среда существования объектов.
Лекция 1 Основные понятия ст.преп Касекеева А.Б..
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
МЕТОД ЭКСПЕРТНЫХ ОЦЕНОК. ЭКСПЕРТИЗА В УПРАВЛЕНИИ Роль экспертов в управлении: Основные трудности, связанные с информацией, возникающие при выработке сложных.
Методология IDEF1X (IDEF1 Extended) – язык для семантического моделирования данных, основанных на концепции « сущность - связь ». Является расширением.
Состав объектов. В зависимости от ситуации объект может рассматриваться как единое целое, либо «распадаться» на более мелкие объекты. (единое целое при.
Теория систем и системный анализ Тема5 «Оценка сложных систем. Основные типы шкал измерения »
1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко
Введение в системологию Среда. Структура. Введение в системологию Объект Объект – любой предмет, явление, процесс или состояние, которое воспринимается.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Технология хранения, поиска и сортировки информации в базах данных Сумина О. В. МОУ СОШ 69.
Глава 4 Базовые информационные процессы, их характеристика и модели. Информационные технологии основаны на реализации информационных процессов, разнообразие.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
ПРЕДСТАВЛЕНИЕ ОБ ОБЪЕКТАХ ОКРУЖАЮЩЕГО МИРА. Предметы бывают: Одушевленные и неодушевленные Могут иметь форму и не иметь ее Созданные в результате умственной.
База данных – это совокупность структурированных данных определенного назначения. Структурирование данных – это объединение данных по определенным параметрам.
Состав объектов. В зависимости от ситуации объект может либо рассматриваться как единое целое, либо «распадаться» на более мелкие объекты. Например, компьютер.
ПРЕДСТАВЛЕНИЕ ОБ ОБЪЕКТАХ ОКРУЖАЮЩЕГО МИРА Черемных Наталья Юрьевна, учитель информатики школы 43 г. Братска Иркутской области.
Графические способы представления информации Кластеры Автор презентации: Лебедева М. Б.
Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ.
Транксрипт:

Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.

Кластеризация или классификация? Кластеризация разбивает множество объектов на группы, которые определяются только ее результатом. Классификация относит каждый объект к одной из заранее определенных групп.

Выбор свойств, характеризующих объекты: количественные характеристики (координаты, интервалы…); качественные характеристики (цвет, статус, воинское звание…).

Где можно использовать кластеризацию?

КЛАСТЕРИЗАЦИЯ НОВОСТЕЙ. Состав ключевых слов, определяющих конкретное событие, должен быть одинаков.

Документы за какой промежуток времени мы смотрим? Временное окно нужно большое. Многие издания могут запаздывать не на часы, а на целые дни при публикации новостей, посвященных определенному событию.

Как сравнивать? В качестве меры подобия нужно использовать не просто набор ключевых слов, а так называемый фокус события.

Что такое фокус события? ФОКУС СОБЫТИЯ - Совокупность объектов, каким-либо образом взаимодействующих в новости, и их тематического окружения (синонимов, описаний, дополнений объектов и других параметров, характеризующих рассматриваемое событие).

Фокус события Кто? В событии участвует не более двух главных объектов, остальные второстепенные. Когда? Определяется временем публикации новости о событии. Где? Определяется названием местности (тематическое окружение – названия) Что произошло? Описание события - ключевые слова, определяющие характер события (тематическое окружение - существительные) Как? Ключевые слова, дающие представление о действиях, происшедших в событии (тематическое окружение - глаголы)

Фокус события Значение и влияние. Здесь могут быть второстепенные объекты и их тематическое окружение. Для чего он нужен? Создание осмысленной аннотации новости - наиболее информативной частью любой новости будут предложения, которые содержат вместе как извлеченные объекты, так максимальное количество ключевых слов из тематического окружения события. Определение дублей одной и той же новости - фокус, состоящий из набора ключевых слов и входящих в несколько новостей идентичного содержания, будет совпадать, что позволит фильтровать дубли.

1. Сегментация статей - задача разделения непрерывного потока на новости, связанные одним и тем же событием. 2. Отслеживание новостной дорожки - нахождение всех новостей, которые похожи на множество эталонных новостей. Используется для отлова всех потенциально интересных документов по теме, которые могут появиться в будущем. 3. Определение дорожки - кластеризация всех новостей, порожденных конкретным событием. 4. Определение первой новости в дорожке -для нахождения самого первого сообщения в новом событии. 5. Определение связей (Link Detection) - позволяет определить, порождены ли две новости одним и тем же событием.

Используем словари и тезаурусы ля группировки словоформ в группы синонимов