Семантическая структура пропозиции при извлечении фактов из текстов на русском языке СПбГУ: И. В. Азарова ООО «Идеограф»: В. Л. Иванов Е. А. Овчинникова,
2 Система анализа текста Идеограф
3 Платформа ИДЕОЛОГ (1) Базовые свойства Машина логического вывода Решетка типов Дополнительные свойства Поддержка подключаемых грамматик Поддержка больших лексиконов Поддержка встроенных предикатов Chart parsing
4 Платформа ИДЕОЛОГ (2)
5 Грамматический анализ AGFL Базовые свойства Система продукций (контекстно-свободная грамматика) NP Noun head Noun daughter NP Adj daughter Noun head Продукции на уровне категорий (координация значений категорий задание согласования, управления и примыкания) NP (Case) Noun head (Case) Noun daughter (gen) NP (Case) Adj daughter (Case) Noun head (Case) Дополнительные свойства Система трансдукции (форматирование результатов)
6 RUS4IR: Морфология + Синтаксис (1)
7 RUS4IR: Морфология + Синтаксис (2)
8 RUS4IR: Морфология + Синтаксис (1)
9 RUS4IR: Морфология + Синтаксис (3)
10 Лексический анализ: RussNet (1) Базовые свойства RussNet компьютерный тезаурус wordnet-типа элементарная единица - синсет (набор синонимов) объединение синсетов в семантические деревья рамки валентностей для синсетов (устойчивые контекстные маркеры) Дополнительные свойства ассоциативные семантические отношения между синсетами одной части речи (антонимия, меронимия, каузация, пресуппозиция … ) отношения синонимии и антонимии между синсетами разных частей речи отношения деривационной синонимии и антонимии между словообразовательными дериватами аддитивного типа
11 Лексический анализ: RussNet (2) Примеры синсета {знакомый1, известный1} : 'встречавшийся прежде Мне хорошо эти слова "о моральном вреде системе". Нам хорошо свадебные или обручальные кольца.. Они уже с азами общей культуры Но рядом с меню висело уже мне объявление: {знакомый2} : 'состоящий в знакомстве с кем -либо' Мы с тобой двадцать лет. Cемья Вит Карр с Берковицем...
12 Лексический анализ: RussNet (3) Семантические деревья {человек} {«артефакт»} {группа} Группировки деревьев «одушевленные» = «человек» + «животные» «предмет» = «естественный объект» + «артефакт» + … «люди» = «человек» + «группа»
13 Лексический анализ: RussNet (4) Семантические связи синсетов (Глаголы) (Существительные) {сделать} НСВ {создавать} {создать} der_transposition_action der_agent {создание} {создатель} Окрестность синсета – все семантические связи данной вершины дерева/сети
14 Лексический анализ: RussNet (5) Синсет RussNet в xml-формате RUS-nЧЕЛОВЕК.42.лицо n Член коллектива людей лицо 2 neut человек 1 neut индивидуум 1 liter RUS-nЛЮДИ.34.общество holo_member RUS-nЛЮДИ.25.народ holo_member
15 Рамки валентности (1) Субъектная валентность для синсета {знакомый1, известный1} Синтаксическое оформление валентной позиции Pronoun(dat) или Noun (dat) Семантическое оформление валентной позиции дерево ЧЕЛОВЕК Ролевое оформление валентной позиции СУБЪЕКТ Обязательность/факультативность валентной позиции (частотность появления позиции в контекстах корпуса текстов) факультативна (31%)
16 Рамки валентности (2) Объектная валентность для синсета {знакомый2} Синтаксическое оформление валентной позиции Prep=«с» + Pronoun (abl) или Noun (abl) Семантическое оформление валентной позиции дерево ЧЕЛОВЕК Ролевое оформление валентной позиции ОБЪЕКТ Обязательность/факультативность валентной факультативна (46%)
17 Рамки валентности (3) Пример рамки валентностей в xml-формате
18 Разрешение неоднозначности Исходный текст: Я был знаком с тобой… Синтаксическая интерпретация 1: ((Я) (знакомый) ((с) (ты))) Синтаксическая интерпретация 2: ((Я) (знак) ((с) (ты))) Лексическая интерпретация 1-1: {знакомый1} Лексическая интерпретация 1-2: {знакомый2} … Лексическая интерпретация 2-1: {знак1} Лексическая интерпретация 2-2: {знак2} Лексическая интерпретация 2-3: {знак3} Верифицированный вариант 1: ((Я) (знакомый) ((с) (ты))) + {знакомый2}
19 Синтаксическая семантика (1) Базовые свойства Базовая единица – признаковая структура пропозиции Ядро пропозиции – предикат + субъектно-объектные позиции временные и причинно-следственные отношения между пропозициями Дополнительные свойства Разные типы объектов пропозиции отождествляются в рамках схемы объектов семантического дерева RussNet Периферия пропозиции – качественно-количественная характеристика предиката, субъекта и объектов
20 Синтаксическая семантика (2) Текст: После нашего приезда в Вену я отправился на заранее определенное место встречи. Структура пропозиций: phrase [ SEM proposition [ ID id.приехать SUBJECT X = object [ID id.человек1] OBJECT3 object [ID id.Вена] TIME T1 ] ], phrase [ SEM proposition [ ID id.отправиться SUBJECT Y = object [ID id.человек1] PLACE Z = object [ID id.место] TIME T2 ] ], phrase [ SEM proposition [ ID id.встречать PLACE Z ] ], phrase [ SEM proposition [ ID id.определить OBJECT1 Z TIME T3 ] ], before(T1, T2), before(T3, T2).
21 Синтаксическая семантика (3) Синтаксическое правило грамматики NP (Case, …) Noun head (Case, …) Noun daughter (gen, …) Синтактико-семантические правила 1.Пример конструкции: получение прибыли, строительство дома Noun head имеет в окрестности связь der_transposition_action Noun daughter входит к широкую группировку деревьев «сущность» Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_transposition_action», Noun daughter – объект пропозиции. [ HEAD_DTR noun_phrase [ HEAD noun [CASE Case] SEM [ID Id1] ] NONHEAD_DTRS SEM proposition [ ID Id OBJECT1 X ] ] => entity_abstract(Id2), der_transposition_action(Id1, Id).
22 Синтаксическая семантика (4) 2.Пример конструкции: создатель традиции, проповедник реинкарнации Noun head имеет в окрестности связь der_agent Noun daughter входит к широкую группировку деревьев «сущность» Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_agent», Noun daughter – объект пропозиции, субъект действия – референт группы. [ HEAD_DTR noun_phrase [ HEAD noun [CASE Case] SEM [ID Id1] ] NONHEAD_DTRS SEM proposition [ ID Id SUBJECT ref OBJECT1 X ] ] => entity_abstract(Id2), der_agent(Id1, Id).
23 Ссылки сайт проекта ИДЕОГРАФ (+RussNet Online): сайт грамматики AGFL: сайт тезауруса RussNet:
24 Спасибо за внимание!