Языконезависимое определение авторства текста на базе языковых моделей символьного уровня. - презентация

Презентация на тему: " Языконезависимое определение авторства текста на базе языковых моделей символьного уровня." — Транскрипт:

1 Языконезависимое определение авторства текста на базе языковых моделей символьного уровня

2 Проблема определения авторства текста Невыясненное авторство исторических документов Категоризация коллекций документов Извлечение информации Вопросно-ответные системы

3 Принцип определения авторства Автор при составлении текста использует языковые средства различных уровней: Семантические Синтаксические Лексикографические Орфографические Морфологические Особенности использованных в тексте языковых средств позволяют судить об авторстве текста.

4 Возможные подходы к решению проблемы определения авторства Стилистический анализ Статистическое языковое моделирование

5 Стилистический анализ Проводится в два этапа: 1)Извлечение стилевых маркеров 2)Построение классификатора

6 Недостатки метода Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста Выбор исследуемых свойств является нетривиальной задачей Анализ проводится только на уровне слов Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов

7 Статистическое языковое моделирование Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и морфологических шаблонов), на основе которых можно делать прогнозы Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте

8 Оценка качества модели Perplexity = Entropy =

9 N-граммная модель Вероятность появления цепочки слов: N-граммная модель аппроксимирует эту вероятность в предположении, что на вероятность появления слова влияют только последние n-1 слов:

10 N-граммная модель В самом простом случае Использование грамм длины n означает вычисление вероятностей событий Вероятность появления новых n-грамм всегда ненулевая.

11 Сглаживание вероятностных оценок

12 Принципы классификации Используется Баесова теория принятия решения: текст D относится к авторской категории если В соответствии с правилом Байеса:

13 Результаты классификации Греческий корпус: две коллекции по 200 документов 10 различных авторов, F-мера 74% и 90% Английский корпус: Alex Catalogue of Electronic Texts, 8 авторов, наилучшая F-мера 98% при использовании 6-граммной модели с абсолютным сглаживанием 8 авторов, F-мера 94% при использовании 3- граммной модели при использовании алгоритма сглаживания Виттена-Белла

Скачать бесплатно презентацию на тему "Языконезависимое определение авторства текста на базе языковых моделей символьного уровня." в формате .ppt (PowerPoint)

Языконезависимое определение авторства текста на базе языковых моделей символьного уровня. - презентация

Похожие презентации

Презентация на тему: " Языконезависимое определение авторства текста на базе языковых моделей символьного уровня." — Транскрипт:

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь

Вход в систему

Войти с помощью социльных сетей

Языконезависимое определение авторства текста на базе языковых моделей символьного уровня. - презентация

Похожие презентации

Презентация на тему: " Языконезависимое определение авторства текста на базе языковых моделей символьного уровня." — Транскрипт:

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь