Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВиктор Мелехов
1 Поисковые технологии 2010 Яхрома, Синтаксический анализ по-нижегородски Владимир Окатьев к.ф.-м.н., директор ООО «Диктум»
2 © Dictum Ltd / 24 В программе: Формальная постановка задачи Архитектура системы Учет пунктуации Преимущества подхода Направления развития Синтаксический индекс Синтаксис и релевантность
3 © Dictum Ltd / 24 Задача синтаксического анализа Дельта Волги является восьмым чудом света каким? чего? восьмым света чего? чудом Волги что? чем? является дельта Вход: предложение на ЕЯ Выход: синтаксическая разметка (дерево зависимостей + роли знаков препинания)
4 © Dictum Ltd / 24 Остовное дерево? G=(V, E) Оптимальное проективное остовное дерево: T=(V,E*), E* E Как вычислить вес (где взять корпус)? Как быть с омонимией?
5 © Dictum Ltd / 24 Остовное дерево? G=(V, E) Оптимальное проективное остовное дерево: T=(V,E*), E* E Как вычислить вес (где взять корпус)? Как быть с омонимией?
6 © Dictum Ltd / 24 От СЛОВОформ к ОМОформам Начался рабочий день G=(V, E) V i i=1,N+1 V i V j = i j V 1 … V N+1 =V Оптимальное проективное остовное дерево: T=(V*,E*) V* V, E* E, |V*V i |=1
7 © Dictum Ltd / 24 От СЛОВОформ к ОМОформам Начался рабочий день G=(V, E) V i i=1,N+1 V i V j = i j V 1 … V N+1 =V Оптимальное проективное остовное дерево: T=(V*,E*) V* V, E* E, |V*V i |=1
8 © Dictum Ltd / 24 Этапы синтаксического анализа Лексический анализ Морфологический анализ Определение потенциальных связей Взвешивание потенциальных связей Построение оптимального проективного дерева с учетом пунктуации (ядро синтаксического анализа)
9 © Dictum Ltd / 24 Архитектура синт. анализатора Базы правил Описание правил Компиляция
10 © Dictum Ltd / 24 Описание потенциальных связей Рассматриваются пары омоформ Учитываются в первую очередь грамматические значения слов, а не лексические
11 © Dictum Ltd / 24 Описание синтаксиса ЕЯ Для русского языка ~ 300 правил Наследование для компактности и удобства описания Ключ для быстрого поиска правила в базе
12 © Dictum Ltd / 24 Структура правила NounParticiple: NounFullAdj // наследование { Key: (Noun, Part) // ключ Criterion: // ограничения … Character: // характеристика связи … };
13 © Dictum Ltd / 24 Критерий Согласования (В.п.: белый автомобиль, белого котенка) Модели управления Взаимное расположение слов Наличие/отсутствие знаков препинания
14 © Dictum Ltd / 24 Характеристика связи Вес связи L – расстояние между словами в предложении k – коэффициент, зависящий от характеристики Тип связи (согласование, управление, …) Замещение (горит зеленый) Инверсия (пришел человек) Рассогласования (новая доктор)
15 © Dictum Ltd / 24 О роли запятых Panda eats, shoots and leaves. Линн Трасс. «Казнить нельзя помиловать. Бескомпромиссный подход к пунктуации»
16 © Dictum Ltd / 24 Обособление
17 © Dictum Ltd / 24 Однородные члены
18 © Dictum Ltd / 24 Покрытие Совместимые конструкции: соседние вложенные Композиция – множество попарно совместимых конструкций Покрытие – композиция, содержащая все внутренние разделители предложения
19 © Dictum Ltd / 24 Синтаксическая разметка К 1 пешеходам 2 приравниваются 3 лица 4, ведущие 5 велосипед 6, мопед 7, везущие 8 санки 9. Покрытие: () |
20 © Dictum Ltd / 24 Преимущества подхода Универсальность модели, возможность применения классических алгоритмов Встроенное снятие омонимии Не требуется предварительная фрагментация Гибкость, учет различных ограничений (например, пунктуации)
21 © Dictum Ltd / 24 Направления развития Оценка качества (размеченный корпус?) Устойчивость к опечаткам Построение «синтаксического» словаря Использование тезаурусов Машинное обучение Перенос на другие языки (английский, немецкий, испанский, …)
22 © Dictum Ltd / 24 Синтаксический индекс Индекс Синтаксический индекс Запрос Запрос' = F (Запрос) Rank'( ) = Rank( ) + S( ) средство транспортное транспортное средство двухколесное двухколесное транспортное средство Запрос Подсказка Подсказка открытие Олимпиады открыти{е,я,ем,ю} Олимпиады открытие Олимпиады открыти{е,я,ем,ю} Олимпиады транспортное средство (какое?) двухколесное, движущееся, …,,, …
23 © Dictum Ltd / 24 Синтаксис и релевантность ПолнотаTочность Расширение запроса0,27 / +70%0,35 / +105% Индексирование цитат 0,19 / +20%0,23 / +75% Индексирование по терминам 0,37 / +140%0,38 / +120% Использование объектов: количество документов увеличилось в 2-3 раза Корпус: законодательство, 300 Мб, plain text 40 запросов, оцениваются первые 10 документов
24 © Dictum Ltd / 24 Контакты Адрес: Россия, Нижний Новгород, Проспект Гагарина 23, корпус 7 Тел (факс): +7 (831) web:
25 © Dictum Ltd / й кадр DictaScope
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.