Азарова Ирина Владимировна Синопальникова Анна Алексеевна Кафедра математической лингвистики СПбГУ Смрж Павел Технологический университет Брно (Чехия)

Презентация:



Advertisements
Похожие презентации
RussNet как компьютерный тезаурус нового типа И.В.Азарова Санкт-Петербургский государственный университет Филологический факультет Кафедра математической.
Advertisements

Семантическая структура пропозиции при извлечении фактов из текстов на русском языке СПбГУ: И. В. Азарова ООО «Идеограф»: В. Л. Иванов.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Взаимодействие эстетических, моральных и прагматических аспектов в семантической структуре оценочных прилагательных русского языка Фомченко А.В.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет.
Текстообразующие функции производных имен прилагательных в романе Б.Окуджавы «Путешествие дилетантов» Магистерская диссертация магистрантки филологического.
Обучение лексике. Что означает владеть лексикой? Особенности функционирования любой языковой единицы проявляются в 2х планах: семасиологический аспект.
Лекция 6 Грамматическое значение и способы его выражения.
Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Презентация на тему: Студентки 23 группы Бельковой Светланы.
Фонетика Сколько гласных звуков? Сколько гласных звуков? Сколько букв в слове «степь» ? Сколько букв в слове «степь» ? Назовите только твёрдые согласные.
Слово Лексемы и словоформы. Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов»
Поиск информации. Поиск информации – из чего он складывается? Как мы задаем документы? Как задаем запросы? Как вычисляем близость между запросом и документом?
The world of money.. What Makes Money Valuable? You can exchange it to other things! Money You work Abstract Things or Permanent Things Material Things.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
Научный стиль. Определение научного стиля.. Что такое научный стиль? Научный стиль – разновидность книжных стилей литературного языка. Он применяется.
Семантические отношения как основа построения электронных тезаурусов Докладчик: аспирант КФУ Мансурова Гульнара Камилевна.
Транксрипт:

Азарова Ирина Владимировна Синопальникова Анна Алексеевна Кафедра математической лингвистики СПбГУ Смрж Павел Технологический университет Брно (Чехия) Представление устойчивых лексических сочетаний в компьютерном тезаурусе RussNet

Является моделью человеческого лексикона: в тезаурус включены смыслы, которые имеют словесное выражение в русском языке элементарной единицей является синонимический ряд (СИНСЕТ) между синсетами установлены семантические отношения семантическое отношение род-вид организует синсеты в набор деревьев Компьютерный тезаурус RussNet

Cинсет, состоящий из одного слова «дом» Пример словарной статьи RussNet

Объем:21 млн. словоупотреблений Временной интервал: 1985 –2004 Типы текстов: 40% – газетные тексты 30% – научно-популярные тексты 20% – фрагменты художественных текстов 10% – тексты законов, договоров… баланс стереотипности, информативности и экспрессивности текстов отсутствие больших фрагментов текста Корпус современных текстов Бокренок 3

Запрос на поиск контекстов слова Отбор контекстов в программе Бонито

Контекстные маркеры можно задавать в виде рамок валентности – устойчивых семантических и морфо-синтаксических признаков контекстов; сочетаний слов, имеющих собственное связанное значение и форму выражения. Контекстные маркеры значений лексем в текстах

V n … N – порядковый номер (при объективном порядке слов) ROLE семантическая роль в пропозиции; значения: СУБЪЕКТ, ОБЪЕКТ1, ОБЪЕКТ2… SEMсемантический тип слов, заполняющих позицию; значения: ЧЕЛОВЕК, ПРЕДМЕТ, АРТЕФАКТ… SYN частотная форма морфо-синтаксичского заполнения позиции; значения: acc, dat, abl, «на» + acc … F o 1 – обязательная (> 66-85%), 0 – факультативная (> 15-33%) Схема описания активной валентной рамки

Направиться (358 контекстов - 100% ) двинуться в каком-л направлении Рамка валентностей(2 обязательные позиции) (1) субъект движения N 1 [лицо / группа лиц]СУБЪЕКТ (2) направления движения "к + N 3 " (44%) [локализация/ лицо] направление движения? "в + N 4 " (27%) [локализация] ОБЪЕКТ1 "в стороону + N 4 " (4%)… (к дивану, к другу, к спуску, к нему…; в комнату, в деревню, в угол гостиной) Валентная рамка RussNet

{двигаться} {направиться} {подойти} {перейти} семантические деревья RussNet обладают конечным набором семантических ролей типы объектов в дереве устойчивы Семантические роли валентных позиций в RussNet

_V (SYN) … SYN морфо-синтаксичская форма слова, имеющего пассивную валентность в лицо"в + N 4 " ROLE семантическая роль в пропозиции; SEMсемантический тип слов, присоединяющих валентность {сказать}, {знать}, {плюнуть} Пассивная валентная рамка RussNet

Пассивная валентная рамка RussNet (2)

Принстонский WordNet give up Sense 1 forfeit, give up, throw overboard, render, waive, forgo => abandon -- ("We abandoned the old car in the empty parking lot") Sense 2 drop out, give up, throw in, throw in the towel, quit, leave, admit defeat, chuck up the sponge -- (give up in the face of defeat of lacking hope) Sense 3 spare, give up, part with, dispense with => give -- (transfer possession of something concrete or abstract to somebody; "I gave her my money"; "can you give me lessons?") Словосочетания в wordnet-словарях

Устойчивые словосочетания (1) Контактность существительных Воспроизводимость

Устойчивые словосочетания (2) Контактность может нарушаться при перечислении.

Устойчивые словосочетания (3) Глагольные словосочетания Контактность нарушается наречиями, частицами и проч.

Устойчивые словосочетания (4) Глагольные словосочетания В менее очевидных случаях контактность нарушается другими валентными позициями.

Устойчивые словосочетания (5) Статистическая оценка «устойчивости» сочетания набрать воздух(а) в диапазоне ±5 слов. Коэффициент «неслучайности» MI показывает, насколько «информативно» данное сочетание слов. Доля контекстов с данным значением 3%, общее число вхождений глагола 664 (31 ipm)

Устойчивые словосочетания (6) Статистическая оценка сочетаний вдохнуть воздух в диапазоне ±5 слов (частотность в корпусе – 5 ipm, 101 вхождение)

Контактная информация RussNet