© ElVisti Лекция 7 Кластерный анализ и информационный поиск Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.

Презентация:



Advertisements
Похожие презентации
© ElVisti Лекция 4 Информационно-поисковые языки, интерфейсы пользователей ИПС Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Advertisements

© ElVisti Лекция 9 Элементы фрактального анализа информационных потоков Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
© ElVisti Лекция 8 Ранжирование результатов поиска Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Метод выявления неявных связей объектов Снарский А.А., Ландэ Д.В., Женировский М. И. НТУУ «Киевский политехнический институт», Информационный центр «ЭЛВИСТИ»,
© ElVisti Лекция 6 Математические модели информационных потоков Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
© ElVisti Лекция 10 Основные сведения о нейронных сетях Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Информационный центр «ЭЛВИСТИ»,
Статистические показатели Основная категория статистики – статистический показатель. Статистический показатель представляет собой результат обобщения информации.
Лекция «Элементы фрактального анализа информационных потоков» ЛАНДЭ Д.В., д.т.н., профессор НТУУ «КПИ», ведущий научный сотрудник ИПРИ НАН Украины Летняя.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Подход к выявлению подмножеств похожих документов А. Антонов, С. Баглей, В. Мешков { alexa, baglei, galaktika.ru.
Методы определения семантической близости документов.
3.1. Назначение онтологий. Информационный поиск..
План лекции: 1. Векторы. Линейные операции над векторами. 2. Линейная зависимость и независимость векторов. 3.Понятие базиса. Координаты вектора. 4. Разложение.
Лекция 9: Метод предельных упрощений (МПУ) По тому, как организован процесс обучения распознающих систем, четко выделяются два подхода к проблеме ОРО.
ИНФОРМАЦИОННЫЕ ПОТОКИ В ВЕБ - ПРОСТРАНСТВЕ И СОЦИАЛЬНО - ПРАВОВОЕ МОДЕЛИРОВАНИЕ Дмитрий Владимирович ЛАНДЭ, доктор технических наук, член-корреспондент.
Лекция «Самоподобие в информационном пространстве» ЛАНДЭ Д.В., д.т.н., профессор НТУУ «КПИ», ведущий научный сотрудник ИПРИ НАН Украины Летняя школа Компьютерной.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
Транксрипт:

© ElVisti Лекция 7 Кластерный анализ и информационный поиск Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ

© ElVisti2 Понятие «кластерного анализа» Пример кластеров сайтов - «групп подобия по контенту» (www touchgraph.com) Кластерный анализ - метод группировки экспериментальных данных в классы. Наблюдения, попавшие в один класс, в некотором смысле ближе друг к другу, чем к наблюдениям из других классов. (Глоссарий.ru)

© ElVisti3 Понятие информационного портрета Портрет - модель реального объекта, выраженную его наиболее узнаваемыми чертами. Информационный портрет документа - статистически значимая совокупность информационных характеристик. В качестве информационного портрета темы можно рассматривать множество ключевых слов, наиболее точно (по статистическим и смысловым алгоритмам) отражающее информацию, соответствующую данной теме. Тематической рубрике соответствует ее информационный портрет: P i = { v ij }, (j=1,..,K), где v ij –весовой коэффициент, соответствующий j- му терм, K - количество термов в словаре системы.

© ElVisti4 Взвешивание потока документов в пространстве информационного портрета М = {m ij } (i = 1,..,N; j = 1,..,K) - матрица соответствия потока документов D информационному портрету l. D={d i } {i=1,K}. di – определяется как TF*IDF. Близость D и P i – sim(D, P i ) – скалярное произведение K-мерных векторов. Алгоритм взвешивания:

© ElVisti5 Латентное семантическое индексирование Метод кластерного анализа LSI (латентного семантического индексирования), базируется на сингулярном разложении матриц (SVD). Сингулярным разложением матрицы A называется ее разложение вида A=USV T, где U и V – ортогональные матрицы, а S – диагональная матрица, элементы которой s ij = 0, если i не равно j, а s iі >= 0. В рассматриваемом примере (таблиц взаимосвязей) матрица А = М T М – квадратная, однако метод LSI применяется и к прямоугольным матрицам, но в этих случаях размерность матрицы S соответствует рангу матрицы А. В соответствии с методом LSI в рассмотрение берутся k наибольших сингулярных значений, а каждому такому сингулярному значению матрицы А соответствует кластер взаимосвязанных документов. А аппроксимируется матрицей A k = Σ u i s ii v i T. Метод LSI применим и к ранжированию выдачи информационно-поисковых систем, основанному на цитировании. Это алгоритм HITS (Hyperlink Induced Topic Search) – один из двух самых популярных на сегодня в области информационного поиска. Ввиду своей вычислительной трудоемкости (равной O(N 2 ), N – размерность А), этот метод LSI применяется только для относительно небольших матриц.

© ElVisti6 Взаимосвязь тем и метод k-means Суть алгоритма k-means: случайным образом выбирается k векторов-строк, которые определяются как центроиды кластеров. Затем k кластеров наполняются – для каждого из оставшихся векторов-строк определяется близость к центроиду соответствующего кластера. После этого вектор- строка приписывается к тому кластеру, к которому он наиболее близок. После этого строки-векторы перегруппируются. Затем для каждого из новых кластеров заново определяется центроид. После этого заново выполняется процесс наполнения кластеров и т. д., пока процесс не стабилизируется или не зациклится.

© ElVisti7 Группировка тем метод k-means В отличие от метода LSI, k-means идеально подходит для кластеризации динамических информационных потоков. Укрупнение рубрик – актуальная задача кластерного анализа и она может быть решена путем их группировки по признакам подобия. Выделение групп взаимосвязанных рубрик методом кластерного анализа k- means:

© ElVisti8 Метод, основанный на применении сетевого подхода - выявление сюжетов

© ElVisti9 Построение адаптивных интерфейсов уточнения запросов

© ElVisti Спасибо за внимание! Ландэ Д.В МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ Киев, Украина