Построение правил для автоматического извлечения словосочетаний из текста Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова
Основная цель При построении терминологических словарей важную роль играют многословные термины. Они составляют 80% всех терминов предметной области. Разработка алгоритмов извлечения из текста синтаксически связанных словосочетаний.
Постановка задачи Разработать формальное представление словосочетаний текста в виде последовательности слов, а также дерева зависимостей между словами. Разработать представление правил, предназначенных для автоматического извлечения словосочетаний из текста. Разработать словарь словосочетаний, поддерживающий эффективное извлечение словосочетаний из текста и обеспечивающий удобный доступ к его элементам. Разработать алгоритмы автоматического извлечения словосочетаний из текста по заданным правилам. Разработать пользовательский интерфейс, позволяющий лингвисту управлять процессом извлечения словосочетаний.
Структура словосочетания Словосочетание – Phrase состоит из 4 элементов: Phrase = Parts – Упорядоченная последовательность слов в словосочетании, где каждому ее элементу соответствует слово словосочетания в нормальной форме. Пример 1: для словосочетания Государственный фонд занятости населения РФ
Структура словосочетания P hrase = Relations – Набор пар: позиции главного и подчиненного слова, и набор морфологический признаков, по которым согласовываются подчиненное слово с главным Пример 2: для словосочетания Институт Ядерной Физики: Каждый из элементов Relations будет выглядеть так: (0)институт(1)ядерный(2)физика
Структура словосочетания Pattern = root - позиция корневого слова в словосочетании, то есть, является корневым, главным опорным словом. title - наименование словосочетания.
Таблица согласований Зачастую согласования между некоторыми частями различных правил или словосочетаний совпадают. Например очень часто встречаются такие согласования как (род, число падеж) или (падеж – родительный, число единственное). Поэтому целесообразно ввести единую таблицу согласований для всей системы. с яркий (0) свет (1) Таблица согласований 1. род, число, падеж 2. Число – ед, падеж – рд 3. Число – мн, падеж – тв 4. …………… 5. …………… …… 1->0 Согл. 1 Корень (1)Яркий свет Словосочетание: ЯРКИЙ СВЕТ
Согласование Морфологическое согласование - набор параметров для согласования главного слова с подчиненным словом (падеж, род, число и пр.). Т.е. параметры, по которым необходимо осуществить согласование опорного слова данной части с зависимым словом при склонении словосочетания. Пример 4: Новосибирский Государственный Университет. Новосибирскому Государственному Университету Морфологическое управление - набор морфологических признаков и их значений, определяющих форму слову, например: «падеж=родительный», «род=мужской», «число=единственное». Пример 5: Институт гидродинамики. Институту гидродинамики
Особенности построения связей между элементами словосочетания 1. Первая связь (пара) строится от корневого слова. Пример 6: 2. В одной паре подчиненное и главное слово не может совпадать. Пример 7: 3. Для подчиненного слова существует только одно главное. Пример 8:
Структура правил Правило – Pattern состоит из 4 элементов, по аналогии с тем как строится Phrase, за исключением поля Parts: Pattern = Parts – Упорядоченная последовательность наборов морфологических классов. Пример 1: для правила [Сущ] + [Прил] + [Сущ] (Центральный Банк России) : Прил (Кач.)Сущ(мж.р неод.)Сущ(ж.р неод.) ед-ч, падеж - род род, число, падеж
Алгоритм извлечения словосочетаний из текста 0 шаг: (1 обход текста) Составляется словарь терминов. 1 шаг: (2 обход текста) Для каждого слова текста ищем все правила, с таким же морфологическим классом корневого элемента. Запоминаем позиции данных правил и сами правила, составляем из них список гипотез. Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии вольфрама и молибдена; по академической программе для претворения в практику физико- химического анализа и результатов Институт – Сущ Правило: Сущ+Прил+Сущ Позиция: 12 Сущ+Прил+Сущ Позиция: 12 Гипотеза 2 Гипотеза 3
2 шаг: (3 обход текста) Для каждой гипотезы в соответствии с текущей позицией в тексте проверяем соответствие морфологического класса элемента правила и слова в тексте. Если соответствие отсутствует – удаляем гипотезу из списка. 3 шаг: Для каждой гипотезы проверяем согласование заданное в правилах. Если согласование не выполнено – удаляем гипотезу из списка. 4 шаг: На основе оставшихся гипотез формируем новое словосочетание Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии Сущ+Прил+Сущ Позиция: 12 Сущ+Прил+Сущ Позиция: 12 Гипотеза 2 Гипотеза 3 Институт естественных наук Сущ+Прил+Сущ = ?
Извлечение словосочетаний ТАБЛИЦА СОГЛАСОВАНИЙ ТАБЛИЦА ПРАВИЛ СЛОВАРЬ СЛОВОСОЧЕТАНИЙ ЯДРО ПОИСКА ОБРАБАТЫВАЕМЫЙ ТЕКСТ СЛОВАРЬ ТЕРМИНОВ
Словарь словосочетаний Таблица правил
Редактор словосочетаний
Редактор правил
Согласование морфологических признаков.
Результаты обработки текстов Было обработано 3 текста из разных предметных областей. Таблица правил содержала 5 основных правил
Результаты обработки текстов Название текстаСлов в тексте Гипотезы, прошедшие согласование С+СрдС+СтвС+ПП+СС+Прил+Срд Отрывок из учебного пособия по гетерогенному катализу % Отрывок из учебного пособия по гетерогенному катализу % Михаил Шолохов "Судьба человека" %
Перспективы развития Вложенность правил (рекурсия). Необязательные и альтернативные элементы. Синтез форм словосочетаний на основе нормальной формы.