Метод выявления неявных связей объектов Снарский А.А., Ландэ Д.В., Женировский М. И. НТУУ «Киевский политехнический институт», Информационный центр «ЭЛВИСТИ», Институт теоретической физики им. Н.Н. Боголюбова НАН Украины
ПРЕДМЕТНАЯ ОБЛАСТЬ В настоящее время в теории и практике аналитической деятельности получила большое развитие концепция сложных сетей, являющаяся с одной стороны, развитием теории графов, а с другой стороны, областью применения подходов, применяемых в физике, например, в теории электрических цепей или теории перколяции. Переход к физической парадигме объясняется, по-видимому, именно сложностью сетей, которые, на самом деле окружают нас повсюду. В частности, сети, образуемые персонами, совместно упоминаемыми в одних и тех же публикациях, позволяют аналитикам делать выводы об общих интересах отдельных групп персон, выявлять неявные связи, пренебрегать несущественными и т.п. Описывается метод, позволяющий выявлять неявные связи в сложных сетях, представленных матрицами инцидентности. Описывается применение данного метода, базирующегося на теории электрических сетей, для выявления силы взаимосвязей понятий, извлекаемых из неструктурированных текстов, в частности, персон. Этот же метод может применяться, например, для выявления неявных связей терминов в текстах сообщений электронных СМИ.
ТРАДИЦИОННЫЕ ПОДХОДЫ Известно, что матрицы взаимосвязей понятий (МВП) являются одной из форм представления сетевых структур, аналогичной по функциональности их графовому представлению. На практике эти матрицы чаще всего отражают близость отдельных понятий (совместную встречаемость в документах или близость по сопутствующему контексту в разных документах). При самых различных подходах к их построению - это, как правило, симметричные матрицы, элементы которых – коэффициенты взаимосвязей. Если отношения между понятиями не носят направленного характера, то их также можно рассматривать как неориентированные графы и применять к ним соответствующие методы. Чаще всего ребрам этих графов приписываются весовые коэффициенты, которые пропорциональны количеству документов из некоторого массива, одновременно соответствующие обоим узлам (понятиям), соединяемым этими ребрами. Существуют и другие многочисленные подходы к определению близости понятий в массивах неструктурированных текстов, среди таких можно назвать контекстные, вероятностные и энтропийные (Mutual Information), но все они являются лишь предпосылками для построения матриц взаимосвязей, их перегруппировки и визуализации. Известно, что матрицы взаимосвязей понятий (МВП) являются одной из форм представления сетевых структур, аналогичной по функциональности их графовому представлению. На практике эти матрицы чаще всего отражают близость отдельных понятий (совместную встречаемость в документах или близость по сопутствующему контексту в разных документах). При самых различных подходах к их построению - это, как правило, симметричные матрицы, элементы которых – коэффициенты взаимосвязей. Если отношения между понятиями не носят направленного характера, то их также можно рассматривать как неориентированные графы и применять к ним соответствующие методы. Чаще всего ребрам этих графов приписываются весовые коэффициенты, которые пропорциональны количеству документов из некоторого массива, одновременно соответствующие обоим узлам (понятиям), соединяемым этими ребрами. Существуют и другие многочисленные подходы к определению близости понятий в массивах неструктурированных текстов, среди таких можно назвать контекстные, вероятностные и энтропийные (Mutual Information), но все они являются лишь предпосылками для построения матриц взаимосвязей, их перегруппировки и визуализации.
Таблица взаимосвязи понятий
Коэффициент сцепления
Неявные связи (матрица скрытности)
Скрытые связи слов 1.Слова считаются связанными, если они стоят рядом с текстом. 2.Известно, что матрица инцидентности слов сильно разряжена. 3.Придуман алгоритм отбора «опорных слов». Выбираются слова, которые участвуют в наиболее часто встречаемых «триадах».
Некоторые выводы Приведенный метод во многом напоминает подходы, базирующиеся на комбинаторном кластерном анализе, однако его принципиальное отличие в том, что он основывается на правилах Кирхгофа о протекании электрического тока в разветвленных цепях. При этом целью было использование методов, уже наработанных в теории электрических сетей. В отличие от существующих в настоящее время подходов к выявлению взаимосвязей понятий, предложенный метод позволяет выявлять, определять относительный вес и визуализировать неявные связи любых уровней. Вместе с тем рассмотренное направление анализа сложных сетей сегодня актуально в маркетинговых и социальных исследованиях, в конкурентной разведке, в задачах выявления и визуализации различных сообществ.
Спасибо за внимание! Д.В. Ландэ, Информационный Центр «ЭЛВИСТИ», Киев, Украина