PBI Определение абзацев в тексте Сильвестров Алексей 9 ноября 2010 г.

Презентация:



Advertisements
Похожие презентации
МНОГОМЕРНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ. Совместное распределение термин, относящийся к распределению нескольких случайных величин, заданных на.
Advertisements

Теория информации Практическая работа 1 3. Пример 1. Какую степень неопределенности содержит опыт извлечения карточки с простой цифрой, вынутой из разрезной.
Языконезависимое определение авторства текста на базе языковых моделей символьного уровня.
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ. СТАТИСТИЧЕСКАЯ ОЦЕНКА.
Памятки Русский язык 2 класс. Признаки предложения 1.Предложение состоит из слов. 2.Предложение выражает законченную мысль. 3.Первое слово в предложении.
Анализ вариационных рядов. Анализ вариационных рядов. Основные понятия и определения Генеральная совокупность – множество всех значений, характеризующих.
ИНФОРМАЦИОННАЯ ЧУВСТВИТЕЛЬНОСТЬ КОМПЬЮТЕРНЫХ АЛГОРИТМОВ И ЕЁ КОЛИЧЕСТВЕННЫЕ МЕРЫ д.т.н., профессор М.В. Ульянов Кафедра «Управление разработкой программного.
Задачи с начальными условиями Кафедра Юнеско по НИТ, Рейн Т.С.
Элементы теории вероятности и математической статистики Теория вероятностей возникла как наука из убеждения, что в основе массовых случайных событий лежат.
Метод максимального правдоподобия ММП позволяет получить по крайней мере асимптотически несмещенные и эффективные оценки параметров распределения, которые.
ЭЛЕКТРОННАЯ ТАБЛИЦА EXCEL. Запуск программы Электронная таблица – это программа для обработки и хранения числовых данных, которая работает в режиме диалога.
Количественные характеристики случайных переменных Математическое ожидание (среднее значение) Математическое ожидание (среднее значение) Дисперсия и среднее.
Марковские процессы. Понятие случайного процесса Понятия: Cостояние Переход Дискретный случайный процесс Непрерывный случайный процесс.
Понятие «информационная модель» Информационная модель - это совокупность информации об объекте, описывающая свойства и состояние объекта, процесса или.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
Метод наименьших квадратов В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей функции получили.
Кафедра математики и моделирования Старший преподаватель Е.Г. Гусев Курс «Высшая математика» Лекция 7. Тема: Ряды. Определение и свойства. Цель: Рассмотреть.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Имитационное моделирование в исследовании и разработке информационных систем Лекция 5 Элементы теории вероятностей и математической статистики в имитационном.
ДРЕВОВИДНЫЕ МОДЕЛИ Деревья решений, случайный лес.
Транксрипт:

PBI Определение абзацев в тексте Сильвестров Алексей 9 ноября 2010 г

Введение Методы определения Entropy rate constancy Методы оценивания и результаты

Введение Цель: PBI – один из этапов обработки текста.

Методы определения Многопризнаковый бинарный классификатор: начинается ли с данного предложения абзац? Использование отдельно взятых признаков и эвристик.

Методы определения Признаки делятся на 3 вида: 1.Несинтаксические. 2.Языковые. 3.Синтаксические.

Несинтаксические: Distance (Dw,Ds): расстояние в словах и предложениях от начала нового абзаца. Sentence Length: В среднем длина предложения меняется на протяжении абзаца. Quotes: Содержит ли предложение цитаты или является частью цитаты ? Final Punctuation: Каким знаком оканчивается предложение?

Синтаксические: Number of phrases (VP, NP, PP). Tree Depth. Cue Words: because, so…

Языковые: Sentence probability: Вероятность данного предложения согласно выбранной языковой модели. Word entropy rate: Энтропия первых предложений меньше, чем у остальных в абзаце. Character n-gram models: Возможно, в начинающем абзац предложении больше заглавных букв?

Языковые и несинт. признаки: производительность

Синт. признаки: бесполезны

Языковая модель Языковая модель - это распределение вероятностей последовательностей слов: P( And nothing but the truth) P( And nuts sing on the roof) 0

Языковая модель Вероятность предложения s из L слов: Аппроксимация: n-граммы

Языковая модель Пример: Пользуемся биграммами. -начало предложения, иначе теряет смысл. -конец предложения, чтобы

Языковая модель Maximum Likelihood : Грубая оценка. Неприемлем:

Jelinek-Mercer smooth : Где параметр подбирают или задают как функцию от С(xyz) Языковая модель

Энтропия Энтропия случайной величины: Пример: бросок 8-гранной кости:

Энтропия Совместная энтропия: Условная энтропия: Цепное правило:

Энтропия Цепное правило: Взаимная информация: Мера взаимной зависимости двух случайных величин

Энтропия

Entropy rate: Т.к. информация, содержащаяся в сообщении, зависит от его длины, рассматривают per-word энтропию ( она же entropy rate).

Entropy rate constancy Согласно принципу, энтропия Тогда в выражении где - все слова в тексте до текущего предложения -все слова в предложении до текущего слова возрастает с номером предложения, т.к. всё время растет.

Entropy rate constancy Нас интересует среднее значение для Задача свелась к вычислению энтропии предложения.

Entropy rate constancy WSJ corpora

Entropy rate constancy Война и мир

Вопросы?