Азарова Ирина Владимировна Синопальникова Анна Алексеевна Кафедра математической лингвистики СПбГУ Смрж Павел Технологический университет Брно (Чехия) Представление устойчивых лексических сочетаний в компьютерном тезаурусе RussNet
Является моделью человеческого лексикона: в тезаурус включены смыслы, которые имеют словесное выражение в русском языке элементарной единицей является синонимический ряд (СИНСЕТ) между синсетами установлены семантические отношения семантическое отношение род-вид организует синсеты в набор деревьев Компьютерный тезаурус RussNet
Cинсет, состоящий из одного слова «дом» Пример словарной статьи RussNet
Объем:21 млн. словоупотреблений Временной интервал: 1985 –2004 Типы текстов: 40% – газетные тексты 30% – научно-популярные тексты 20% – фрагменты художественных текстов 10% – тексты законов, договоров… баланс стереотипности, информативности и экспрессивности текстов отсутствие больших фрагментов текста Корпус современных текстов Бокренок 3
Запрос на поиск контекстов слова Отбор контекстов в программе Бонито
Контекстные маркеры можно задавать в виде рамок валентности – устойчивых семантических и морфо-синтаксических признаков контекстов; сочетаний слов, имеющих собственное связанное значение и форму выражения. Контекстные маркеры значений лексем в текстах
V n … N – порядковый номер (при объективном порядке слов) ROLE семантическая роль в пропозиции; значения: СУБЪЕКТ, ОБЪЕКТ1, ОБЪЕКТ2… SEMсемантический тип слов, заполняющих позицию; значения: ЧЕЛОВЕК, ПРЕДМЕТ, АРТЕФАКТ… SYN частотная форма морфо-синтаксичского заполнения позиции; значения: acc, dat, abl, «на» + acc … F o 1 – обязательная (> 66-85%), 0 – факультативная (> 15-33%) Схема описания активной валентной рамки
Направиться (358 контекстов - 100% ) двинуться в каком-л направлении Рамка валентностей(2 обязательные позиции) (1) субъект движения N 1 [лицо / группа лиц]СУБЪЕКТ (2) направления движения "к + N 3 " (44%) [локализация/ лицо] направление движения? "в + N 4 " (27%) [локализация] ОБЪЕКТ1 "в стороону + N 4 " (4%)… (к дивану, к другу, к спуску, к нему…; в комнату, в деревню, в угол гостиной) Валентная рамка RussNet
{двигаться} {направиться} {подойти} {перейти} семантические деревья RussNet обладают конечным набором семантических ролей типы объектов в дереве устойчивы Семантические роли валентных позиций в RussNet
_V (SYN) … SYN морфо-синтаксичская форма слова, имеющего пассивную валентность в лицо"в + N 4 " ROLE семантическая роль в пропозиции; SEMсемантический тип слов, присоединяющих валентность {сказать}, {знать}, {плюнуть} Пассивная валентная рамка RussNet
Пассивная валентная рамка RussNet (2)
Принстонский WordNet give up Sense 1 forfeit, give up, throw overboard, render, waive, forgo => abandon -- ("We abandoned the old car in the empty parking lot") Sense 2 drop out, give up, throw in, throw in the towel, quit, leave, admit defeat, chuck up the sponge -- (give up in the face of defeat of lacking hope) Sense 3 spare, give up, part with, dispense with => give -- (transfer possession of something concrete or abstract to somebody; "I gave her my money"; "can you give me lessons?") Словосочетания в wordnet-словарях
Устойчивые словосочетания (1) Контактность существительных Воспроизводимость
Устойчивые словосочетания (2) Контактность может нарушаться при перечислении.
Устойчивые словосочетания (3) Глагольные словосочетания Контактность нарушается наречиями, частицами и проч.
Устойчивые словосочетания (4) Глагольные словосочетания В менее очевидных случаях контактность нарушается другими валентными позициями.
Устойчивые словосочетания (5) Статистическая оценка «устойчивости» сочетания набрать воздух(а) в диапазоне ±5 слов. Коэффициент «неслучайности» MI показывает, насколько «информативно» данное сочетание слов. Доля контекстов с данным значением 3%, общее число вхождений глагола 664 (31 ipm)
Устойчивые словосочетания (6) Статистическая оценка сочетаний вдохнуть воздух в диапазоне ±5 слов (частотность в корпусе – 5 ipm, 101 вхождение)
Контактная информация RussNet