Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 14 лет назад пользователемmsucsai
1 Языконезависимое определение авторства текста на базе языковых моделей символьного уровня
2 Проблема определения авторства текста Невыясненное авторство исторических документов Категоризация коллекций документов Извлечение информации Вопросно-ответные системы
3 Принцип определения авторства Автор при составлении текста использует языковые средства различных уровней: Семантические Синтаксические Лексикографические Орфографические Морфологические Особенности использованных в тексте языковых средств позволяют судить об авторстве текста.
4 Возможные подходы к решению проблемы определения авторства Стилистический анализ Статистическое языковое моделирование
5 Стилистический анализ Проводится в два этапа: 1)Извлечение стилевых маркеров 2)Построение классификатора
6 Недостатки метода Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста Выбор исследуемых свойств является нетривиальной задачей Анализ проводится только на уровне слов Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов
7 Статистическое языковое моделирование Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и морфологических шаблонов), на основе которых можно делать прогнозы Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте
8 Оценка качества модели Perplexity = Entropy =
9 N-граммная модель Вероятность появления цепочки слов: N-граммная модель аппроксимирует эту вероятность в предположении, что на вероятность появления слова влияют только последние n-1 слов:
10 N-граммная модель В самом простом случае Использование грамм длины n означает вычисление вероятностей событий Вероятность появления новых n-грамм всегда ненулевая.
11 Сглаживание вероятностных оценок
12 Принципы классификации Используется Баесова теория принятия решения: текст D относится к авторской категории если В соответствии с правилом Байеса:
13 Результаты классификации Греческий корпус: две коллекции по 200 документов 10 различных авторов, F-мера 74% и 90% Английский корпус: Alex Catalogue of Electronic Texts, 8 авторов, наилучшая F-мера 98% при использовании 6-граммной модели с абсолютным сглаживанием 8 авторов, F-мера 94% при использовании 3- граммной модели при использовании алгоритма сглаживания Виттена-Белла
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.