–Lexical chains - textual cohesion (Halliday & Hasan) Cohesion: text makes sense as a whole Cohesion occurs where the interpretation of one item is dependent of that of another item in the text. It is this dependency that gives rise to cohesion. Lexical chaining
Textual coherence Союзы Референция Лексическая связанность Субституция (one; делать) Эллипсис В чем преимущество лексической связанности для автоматического анализа?
Lexical chaining 5 типов лексической связанности повтор синонимия общее частное часть целое коллокации ( и антонимы как подтип) статистически часто встречаются вместе СЛОВАРИ
WORDNET (Miller et al Fellbaum 1998) An online lexical database whose design is inspired by current psycholinguistic theories of human lexical memory. –4 гр. категории: сущ., глагол, прил., наречие –Главное отношение: СИНОНИМИЯ SYNSET
Wordnet noun relations Гипонимы Гиперонимы Холонимы Меронимы Антонимы
Генерация цепочки 1.К термину подбирается синсеты (neighbouri set) 2.Любой другой термин, который совпадает с одним из терминов синсета, становится членом лексической цепочки 3.Если в цепочке имеется более трех терминов, то ее индексируют 4.И так для всех терминов сообщения Greedy vs. non-greedy
Morris & Hirst (1991) Правила выбора правильной цепочки Chain salience (words should be added to the most recently updated chain). Thesaural relationship (wordnet:часть-целое) Transitivity Allowable word distance
8 Типы отношений (I) Очень сильные (extra strong) отношения повторение слов (mouse/mice) Сильные (strong) отношения два слова, если они имеют одинаковый номер синсета telephone/phone два синсета, если они связаны горизонтальной связью два синсета, если между ними существует связь наверх или вниз два слова, если одно из них является сложным словом, а другое – его частью (orange_tree, tree)
9 Типы отношений (II) Отношения средней силы (medium- strength relations) два синсета соединены в WordNet разрешенным путем длины x, 1x5 Правила: никакое направление не должно предшествовать связи вверх разрешено не более одного изменения направления (кроме тех случаев, когда горизонтальная связь использована для перехода от связи вверх к связи вниз)
10 В основе выделения трех типов отношений лежит презумпция того, что близость в значении прямо зависит от расстояния (в узлах) в таксономии Не все дуги одинаковой длины; правила – попытка сократить количество узлов, семантически не связанных между собой, но близких формально
11 Интуитивные основания правил Если контекст сужен, расширение его последующей связью наверх не имеет большого смысла Изменение направления – «большой шаг» в семантике (кроме (редкой) горизонтальной связи), т. о. отношения средней силы – либо генерализация, либо специализация
12 Необходимость правил
13 Поиск связи между целевым словом и словом одной из цепочек: очень сильное отношение > сильное отношение > отношение средней силы Отношения средней силы взвешиваются в зависимости от длины пути и количества изменений направления (нужно найти самое сильное отношение средней силы): (1)Link Strength = C – path length - k C – константа, k – кол-во изменений направления Работа алгоритма:
14 Ограничения на расстояние между целевым словом и последним словом цепочки: нет для очень сильных отношений (one sense per discource assumption) 7 предложений для сильных отношений 3 предложения для отношений средней силы Работа алгоритма:
15 Работа алгоритма: Greedy lexical chaining approach: при добавлении слова к цепочке учитывается только его левый контекст «Очередь» (queue): каждое слово предложения n добавляется к очереди; ищутся очень сильные отношения между этими словами и всеми созданными к этому моменту цепочками. Как только очень сильное отношение найдено, поиск прекращается, слово удаляется из очереди и добавляется к цепочке. Затем ищутся сильные отношения, затем отношения средней силы (которые взвешиваются по формуле (1)) между оставшимися словами из очереди и всеми лексическими цепочками; слова удаляются из очереди и добавляются к соответствующим цепочкам. Для слов, оставшихся в очереди, создаются новые цепочки.
16 Работа алгоритма: Chain salience: слова добавляются к цепочке, которая обновлялась последней.
17