RussNet как компьютерный тезаурус нового типа И.В.Азарова Санкт-Петербургский государственный университет Филологический факультет Кафедра математической лингвистики
RussNet
WordNet (G.Miller, Ch.Fellbaum) – Психолексикология единица лексического пространства – «синсет» – синонимия «литералов» –критерии синонимии; –глоссы = родовидовые определения; –примеры употребления; родовидовые отношения организуют синсеты в деревья –между родовым и видовым синсетом есть хотя бы один различительный признак ; –доступны согипономы и видны их отличия ; –возможно двойное подчинение синсетов ; «наследование» свойств в родовидовых деревьях «лес» семантических деревьев существительных и глаголов
Структура WordNet
EuroWordNet – Многоязычная лексическая база /
Структура EuroWordNet
Семантические отношения в EuroWordNet n Relation type –NEAR_SYNONYMY –XPOS_NEAR_SYNONYM –HAS_HYPERONYM –HAS_HYPONYM –HAS_XPOS_HYPERONYM –HAS_HOLONYM –HAS_HOLO_PART –NEAR_ANTONYMY –XPOS_NEAR_ANTONYMY –CAUSESIS –HAS_SUBEVENT –IS_SUBEVENT_OF –… –EQ_SYNONYM –EQ_HAS_HYPERONYM –EQ_HAS_HYPONYM –… n Data types –WMWM –… –WMILIR –… n Parts of speech –NN, VV –N>N, V>V –N>N –NN, VV –V>V, N>V… –N>N, V>V… –… –NN, VV… –N>N, V>V … –…
RussNet (Кафедра математической лингвистики) Унаследованные свойства wordnet-словарей n Значения четырех основных ЧР n Опора на корпус современных текстов (21 млн. с/у) n Нетерминологический характер лексикона n Устойчивые словосочетания Объединение синсетов в «семантические деревья» отношением гипонимии или меронимии
Структура RussNet Дополнительные свойства RussNet n синонимы в синсетах упорядочены по частоте встречаемости; есть доминанта синсета n расширен набор собственно семантических отношений n введен набор семантико-деривационных и семантико-грамматических отношений n добавлено описание валентностной структуры, включающее как семантические, так и поверхностно-грамматические атрибуты n прилагательные организованы в иерархические структуры на основе их сочетаемости с существительными введены наборы «семантических деревьев»
Структура RussNet Причины изменения методики построения словаря n специфика русского языка (флективный язык, развитая деривационная система) n отсутствие некоторых источников лексической информации n недостатки и недочеты стандартных методик, ставшие очевидными при практическом использовании wordnet-тезаурусов
Рамки валентности в тезаурусе RussNet n обязательность/ факультативность валентности n активная / пассивная рамка валентностей n общая семантическая характеристика валентности n ролевая характеристика валентности n семантические ограничения на заполнение валентной позиции n грамматическая спецификация валентности