Языконезависимое определение авторства текста на базе языковых моделей символьного уровня
Проблема определения авторства текста Невыясненное авторство исторических документов Категоризация коллекций документов Извлечение информации Вопросно-ответные системы
Принцип определения авторства Автор при составлении текста использует языковые средства различных уровней: Семантические Синтаксические Лексикографические Орфографические Морфологические Особенности использованных в тексте языковых средств позволяют судить об авторстве текста.
Возможные подходы к решению проблемы определения авторства Стилистический анализ Статистическое языковое моделирование
Стилистический анализ Проводится в два этапа: 1)Извлечение стилевых маркеров 2)Построение классификатора
Недостатки метода Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста Выбор исследуемых свойств является нетривиальной задачей Анализ проводится только на уровне слов Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов
Статистическое языковое моделирование Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и морфологических шаблонов), на основе которых можно делать прогнозы Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте
Оценка качества модели Perplexity = Entropy =
N-граммная модель Вероятность появления цепочки слов: N-граммная модель аппроксимирует эту вероятность в предположении, что на вероятность появления слова влияют только последние n-1 слов:
N-граммная модель В самом простом случае Использование грамм длины n означает вычисление вероятностей событий Вероятность появления новых n-грамм всегда ненулевая.
Сглаживание вероятностных оценок
Принципы классификации Используется Баесова теория принятия решения: текст D относится к авторской категории если В соответствии с правилом Байеса:
Результаты классификации Греческий корпус: две коллекции по 200 документов 10 различных авторов, F-мера 74% и 90% Английский корпус: Alex Catalogue of Electronic Texts, 8 авторов, наилучшая F-мера 98% при использовании 6-граммной модели с абсолютным сглаживанием 8 авторов, F-мера 94% при использовании 3- граммной модели при использовании алгоритма сглаживания Виттена-Белла