Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемmodis.ispras.ru
1 PBI Определение абзацев в тексте Сильвестров Алексей 9 ноября 2010 г
2 Введение Методы определения Entropy rate constancy Методы оценивания и результаты
3 Введение Цель: PBI – один из этапов обработки текста.
4 Методы определения Многопризнаковый бинарный классификатор: начинается ли с данного предложения абзац? Использование отдельно взятых признаков и эвристик.
5 Методы определения Признаки делятся на 3 вида: 1.Несинтаксические. 2.Языковые. 3.Синтаксические.
6 Несинтаксические: Distance (Dw,Ds): расстояние в словах и предложениях от начала нового абзаца. Sentence Length: В среднем длина предложения меняется на протяжении абзаца. Quotes: Содержит ли предложение цитаты или является частью цитаты ? Final Punctuation: Каким знаком оканчивается предложение?
7 Синтаксические: Number of phrases (VP, NP, PP). Tree Depth. Cue Words: because, so…
8 Языковые: Sentence probability: Вероятность данного предложения согласно выбранной языковой модели. Word entropy rate: Энтропия первых предложений меньше, чем у остальных в абзаце. Character n-gram models: Возможно, в начинающем абзац предложении больше заглавных букв?
9 Языковые и несинт. признаки: производительность
10 Синт. признаки: бесполезны
11 Языковая модель Языковая модель - это распределение вероятностей последовательностей слов: P( And nothing but the truth) P( And nuts sing on the roof) 0
12 Языковая модель Вероятность предложения s из L слов: Аппроксимация: n-граммы
13 Языковая модель Пример: Пользуемся биграммами. -начало предложения, иначе теряет смысл. -конец предложения, чтобы
14 Языковая модель Maximum Likelihood : Грубая оценка. Неприемлем:
15 Jelinek-Mercer smooth : Где параметр подбирают или задают как функцию от С(xyz) Языковая модель
16 Энтропия Энтропия случайной величины: Пример: бросок 8-гранной кости:
17 Энтропия Совместная энтропия: Условная энтропия: Цепное правило:
18 Энтропия Цепное правило: Взаимная информация: Мера взаимной зависимости двух случайных величин
19 Энтропия
20 Entropy rate: Т.к. информация, содержащаяся в сообщении, зависит от его длины, рассматривают per-word энтропию ( она же entropy rate).
21 Entropy rate constancy Согласно принципу, энтропия Тогда в выражении где - все слова в тексте до текущего предложения -все слова в предложении до текущего слова возрастает с номером предложения, т.к. всё время растет.
22 Entropy rate constancy Нас интересует среднее значение для Задача свелась к вычислению энтропии предложения.
23 Entropy rate constancy WSJ corpora
24 Entropy rate constancy Война и мир
25 Вопросы?
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.