Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формализованных смысловых описаний Захаров Виктор Николаевич Хорошилов Алексей Александрович
Актуальность решаемой задачи 2 1. Аналитические системы 2. Поисковые системы 3. Системы классификации
Идея оценки подобия тематического содержания текстов 3 Совпавшие наименования понятийВес в документе 1Вес в документе 2 1. Ил Великая отечественная война24 3. ОКБ Ильюшина тысяч штук33 Текст 1Текст 2 Ил-2 советский штурмовик времён Великой Отечественной войны, созданный в ОКБ Ильюшина под руководством Сергея Владимировича Ильюшина. Самый массовый самолёт 1940-х годов, было выпущено около 36 тысяч штук. Один из самых грозных боевых самолетов ВОВ Ил-2, разработанный в ОКБ Ильюшина производился в огромных количествах. Советские источники называют цифру 36 тысяч штук.
Общая схема процесса оценки подобия тематического содержания текстов Документ 1 Документ 2 Определение свойств слов (род, число, падеж, лицо) Членение текстов на предложения В каждом предложении определяется главные члены Определение синтаксической структуры предложения и построение дерева зависимостей Выделение из текста единиц смысла Присвоение единицам смысла весов и построение ФСОД (формализованного смыслового описания документов) Получение коэффициента подобия тематического содержания текстов 4
Подходы к сравнению смыслового содержания документов 5 Понятие 1 Понятие 2 Понятие 4 Понятие 3 Понятие 5 Понятие 6 Понятие 7 Понятие 1 Понятие 2 Понятие 3 Понятие 4 Понятие 5 Понятие 6 Понятие 7
Составление формализованного смыслового описания документа
Назначение весов наименованиям понятий 7 - коэффициент увеличивающий степень значимости наименования понятия - количество слов с словосочетании, которым выражается j-ое понятие в i-ом тексте -частота появления выражается j-ого понятия в i-ом тексте kmax -коэффициент установленный опытным путем -глобальная частота j-ого наименования понятия в i-ом тексте
Коэффициент подобия тематического содержания текстов 8
Коэффициент подобия тематического содержания p-ого и q-ого текстов 9
Результаты работы алгоритма Входные данные Текст 1 Полное название страны - Соединенное Королевство Великобритании и Северной Ирландии. Соединенное Королевство находится на Британских островах. Британские острова состоят из двух больших, Великобритания и Ирландия и большого количества маленьких островов. Их общая площадь - более 314 тысяч кв. км. Британские острова отделены от Европейского континента Северным морем и Ла-Маншем. Западное побережье Великобритании омывается Атлантическим океаном и Ирландским морем. Северная Ирландия занимает одну треть территории острова Ирландия. На юге она граничит с Ирландской Республикой. Остров Великобритания состоит из трех основных частей: Англия (южная и средняя часть острова), Уэльс (гористый полуостров на западе) и Шотландия (северная часть острова). В Великобритании нет высоких гор.На севере Чевиот Хилс отделяют Англию от Шотландии; Пеннинские горы тянутся от Северной Англии почти через всю ее центральную часть; Кембрийские горы занимают большую часть Уэльса; Северо- Шотландское нагорье - самые высокие горы в Британии …… Текст 2 Официальным названием страны, которую мы обычно называем Англией, иногда Великобританией, является Объединенное Королевство Великобритании и Северной Ирландии. Объединенное Королевство расположено на группе островов, находящихся недалеко от материка северо-западной Европы. Британские острова включают саму Великобританию, Ирландию и множество маленьких островов. Великобритания состоит из Англии, Шотландии и Уэльса. Южная часть Ирландии оккупирована Великобританией и называется самими гражданами Республикой Эйр. Великобритания отделена от континента проливом Ла-Манш, самую узкую часть которого называют Па-де-Кале. Британские острова на западе окружены мелкими водами Ирландского моря, на севере и северо-востоке - Северным морем, на востоке - Норвежским морем….. 10
Результаты работы алгоритма Выходные данные 11 Результаты сравнения двух анализируемых текстов Соединенный Королевство Великобритания Северный море Британский остров Шотландия Северный Ирландия Лондон Англия Уэльс Темза Ирландия климат Великобритания Манчестер Ливерпуль Глазго Общий вес смыслового описания текста 1 =2367 Общий вес смыслового описания текста 2 =2134 Вес совпавших элементов описаний текста 1 и текста 2=1292 Коэффициент подобия тематического содержания текстов = 47% % А.Тексты на разные темы Б.В текстах есть общие подтемы В.Тексты содержат близкую по смыслу тему Г. Тексты содержат близкие по смыслу темы и подтемы Д.Тексты совпадают по смысловому содержанию АБВГД Шкала подобия тематического содержания текстов
Сравнение с поисковой сиcтемой Google 12 Номер текста среди результатов, полученных поисковой системой Google Порядок значимости текстов, полученный экспертом Порядок текстов полученный при помощи применения алгоритма Коэффициент, полученный системой автоматической оц енки подобия тематического содержания текстов (%) Примечания Сайт ОКБ Яковлева, мало информации Сайт ОКБ Яковлева, перечень публикаций История ОКБ Яковлева, ВОВ Хороший и подробный текст про Як Текст про Як Текст про иностранные самолеты Описание программы ударная сила про Як-38, Як История як-38 и як-36( в основном) Текст про спортивные самолеты Як Подробный текст про Як Подробный текст про Як-38 Запрос: Як-38 - самолет ОКБ Яковлева с технологией вертикального взлета. 12
Применение рассмотренных методов 13 1.Поисковые системы (семантический поиск) 2.Системы поиска заимствований выраженных различными способами 3.Аналитические системы (оценка подобия тематического содержания текстов )
Развитие методов на примере систем поиска заимствований ? 3.3. Понятие 1 Понятие 2 Понятие 4 Понятие 3 Понятие 5 Понятие 6 Понятие 7 Понятие 8 Понятие 9 Понятие 10 Понятие 11 Понятие 12 ?
Спасибо за внимание