PBI Определение абзацев в тексте Сильвестров Алексей 9 ноября 2010 г
Введение Методы определения Entropy rate constancy Методы оценивания и результаты
Введение Цель: PBI – один из этапов обработки текста.
Методы определения Многопризнаковый бинарный классификатор: начинается ли с данного предложения абзац? Использование отдельно взятых признаков и эвристик.
Методы определения Признаки делятся на 3 вида: 1.Несинтаксические. 2.Языковые. 3.Синтаксические.
Несинтаксические: Distance (Dw,Ds): расстояние в словах и предложениях от начала нового абзаца. Sentence Length: В среднем длина предложения меняется на протяжении абзаца. Quotes: Содержит ли предложение цитаты или является частью цитаты ? Final Punctuation: Каким знаком оканчивается предложение?
Синтаксические: Number of phrases (VP, NP, PP). Tree Depth. Cue Words: because, so…
Языковые: Sentence probability: Вероятность данного предложения согласно выбранной языковой модели. Word entropy rate: Энтропия первых предложений меньше, чем у остальных в абзаце. Character n-gram models: Возможно, в начинающем абзац предложении больше заглавных букв?
Языковые и несинт. признаки: производительность
Синт. признаки: бесполезны
Языковая модель Языковая модель - это распределение вероятностей последовательностей слов: P( And nothing but the truth) P( And nuts sing on the roof) 0
Языковая модель Вероятность предложения s из L слов: Аппроксимация: n-граммы
Языковая модель Пример: Пользуемся биграммами. -начало предложения, иначе теряет смысл. -конец предложения, чтобы
Языковая модель Maximum Likelihood : Грубая оценка. Неприемлем:
Jelinek-Mercer smooth : Где параметр подбирают или задают как функцию от С(xyz) Языковая модель
Энтропия Энтропия случайной величины: Пример: бросок 8-гранной кости:
Энтропия Совместная энтропия: Условная энтропия: Цепное правило:
Энтропия Цепное правило: Взаимная информация: Мера взаимной зависимости двух случайных величин
Энтропия
Entropy rate: Т.к. информация, содержащаяся в сообщении, зависит от его длины, рассматривают per-word энтропию ( она же entropy rate).
Entropy rate constancy Согласно принципу, энтропия Тогда в выражении где - все слова в тексте до текущего предложения -все слова в предложении до текущего слова возрастает с номером предложения, т.к. всё время растет.
Entropy rate constancy Нас интересует среднее значение для Задача свелась к вычислению энтропии предложения.
Entropy rate constancy WSJ corpora
Entropy rate constancy Война и мир
Вопросы?