Поисковые технологии 2010 Яхрома, 27.02.2010 Синтаксический анализ по-нижегородски Владимир Окатьев к.ф.-м.н., директор ООО «Диктум»

Презентация:



Advertisements
Похожие презентации
Cергей Ливерко Даниил Скатов Владимир Окатьев Гибридный синтаксический анализ Прикладная лингвистика и искусственный интеллект 2013.
Advertisements


Типовые расчёты Растворы
Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)
Непараметрические критерии согласия Критерии Купера и Ватсона Тел
Школьная форма Презентация для родительского собрания.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Ф. Т. Алескеров, Л. Г. Егорова НИУ ВШЭ VI Московская международная конференция по исследованию операций (ORM2010) Москва, октября 2010 Так ли уж.
Результаты пробного ЕГЭ по русскому языку, проведённого Таганрогским государственным педагогическим институтом г.

1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
Информационная поддержка реализации процессного подхода в компьютеризированной системе качества Барабанов Дмитрий Валерьевич НИЦ CALS-технологий «Прикладная.
1. Определить последовательность проезда перекрестка
Итоги диагностической работы 1 по русскому языку (15 октября 2009 год) Участвовало1950 классов.
Каратанова Марина Николаевна МОУ СОШ 256 г.Фокино.
Математический диктант 1 вариант 2 вариант 1. Представьте каждое из данных выражений в виде алгебраической суммы: а) – 12 – 7 а) – 13 – 5 б) – б)
Блинов Андрей Иосифович. В связи с необходимостью дифференциации проверки содержания в рамках государственной итоговой аттестации по образовательным программам.
Дельта Менеджмент Презентация Доверительное управление компаниями/ активами.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Транксрипт:

Поисковые технологии 2010 Яхрома, Синтаксический анализ по-нижегородски Владимир Окатьев к.ф.-м.н., директор ООО «Диктум»

© Dictum Ltd / 24 В программе: Формальная постановка задачи Архитектура системы Учет пунктуации Преимущества подхода Направления развития Синтаксический индекс Синтаксис и релевантность

© Dictum Ltd / 24 Задача синтаксического анализа Дельта Волги является восьмым чудом света каким? чего? восьмым света чего? чудом Волги что? чем? является дельта Вход: предложение на ЕЯ Выход: синтаксическая разметка (дерево зависимостей + роли знаков препинания)

© Dictum Ltd / 24 Остовное дерево? G=(V, E) Оптимальное проективное остовное дерево: T=(V,E*), E* E Как вычислить вес (где взять корпус)? Как быть с омонимией?

© Dictum Ltd / 24 Остовное дерево? G=(V, E) Оптимальное проективное остовное дерево: T=(V,E*), E* E Как вычислить вес (где взять корпус)? Как быть с омонимией?

© Dictum Ltd / 24 От СЛОВОформ к ОМОформам Начался рабочий день G=(V, E) V i i=1,N+1 V i V j = i j V 1 … V N+1 =V Оптимальное проективное остовное дерево: T=(V*,E*) V* V, E* E, |V*V i |=1

© Dictum Ltd / 24 От СЛОВОформ к ОМОформам Начался рабочий день G=(V, E) V i i=1,N+1 V i V j = i j V 1 … V N+1 =V Оптимальное проективное остовное дерево: T=(V*,E*) V* V, E* E, |V*V i |=1

© Dictum Ltd / 24 Этапы синтаксического анализа Лексический анализ Морфологический анализ Определение потенциальных связей Взвешивание потенциальных связей Построение оптимального проективного дерева с учетом пунктуации (ядро синтаксического анализа)

© Dictum Ltd / 24 Архитектура синт. анализатора Базы правил Описание правил Компиляция

© Dictum Ltd / 24 Описание потенциальных связей Рассматриваются пары омоформ Учитываются в первую очередь грамматические значения слов, а не лексические

© Dictum Ltd / 24 Описание синтаксиса ЕЯ Для русского языка ~ 300 правил Наследование для компактности и удобства описания Ключ для быстрого поиска правила в базе

© Dictum Ltd / 24 Структура правила NounParticiple: NounFullAdj // наследование { Key: (Noun, Part) // ключ Criterion: // ограничения … Character: // характеристика связи … };

© Dictum Ltd / 24 Критерий Согласования (В.п.: белый автомобиль, белого котенка) Модели управления Взаимное расположение слов Наличие/отсутствие знаков препинания

© Dictum Ltd / 24 Характеристика связи Вес связи L – расстояние между словами в предложении k – коэффициент, зависящий от характеристики Тип связи (согласование, управление, …) Замещение (горит зеленый) Инверсия (пришел человек) Рассогласования (новая доктор)

© Dictum Ltd / 24 О роли запятых Panda eats, shoots and leaves. Линн Трасс. «Казнить нельзя помиловать. Бескомпромиссный подход к пунктуации»

© Dictum Ltd / 24 Обособление

© Dictum Ltd / 24 Однородные члены

© Dictum Ltd / 24 Покрытие Совместимые конструкции: соседние вложенные Композиция – множество попарно совместимых конструкций Покрытие – композиция, содержащая все внутренние разделители предложения

© Dictum Ltd / 24 Синтаксическая разметка К 1 пешеходам 2 приравниваются 3 лица 4, ведущие 5 велосипед 6, мопед 7, везущие 8 санки 9. Покрытие: () |

© Dictum Ltd / 24 Преимущества подхода Универсальность модели, возможность применения классических алгоритмов Встроенное снятие омонимии Не требуется предварительная фрагментация Гибкость, учет различных ограничений (например, пунктуации)

© Dictum Ltd / 24 Направления развития Оценка качества (размеченный корпус?) Устойчивость к опечаткам Построение «синтаксического» словаря Использование тезаурусов Машинное обучение Перенос на другие языки (английский, немецкий, испанский, …)

© Dictum Ltd / 24 Синтаксический индекс Индекс Синтаксический индекс Запрос Запрос' = F (Запрос) Rank'( ) = Rank( ) + S( ) средство транспортное транспортное средство двухколесное двухколесное транспортное средство Запрос Подсказка Подсказка открытие Олимпиады открыти{е,я,ем,ю} Олимпиады открытие Олимпиады открыти{е,я,ем,ю} Олимпиады транспортное средство (какое?) двухколесное, движущееся, …,,, …

© Dictum Ltd / 24 Синтаксис и релевантность ПолнотаTочность Расширение запроса0,27 / +70%0,35 / +105% Индексирование цитат 0,19 / +20%0,23 / +75% Индексирование по терминам 0,37 / +140%0,38 / +120% Использование объектов: количество документов увеличилось в 2-3 раза Корпус: законодательство, 300 Мб, plain text 40 запросов, оцениваются первые 10 документов

© Dictum Ltd / 24 Контакты Адрес: Россия, Нижний Новгород, Проспект Гагарина 23, корпус 7 Тел (факс): +7 (831) web:

© Dictum Ltd / й кадр DictaScope