Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 13 лет назад пользователемlmp
1 Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста
2 Введение Определение авторства – определение одного автора из нескольких возможных Определение авторства – определение одного автора из нескольких возможных Верификация автора – установление, принадлежит ли данный текст данному автору Верификация автора – установление, принадлежит ли данный текст данному автору Определение плагиата – поиск сходства между двумя текстами Определение плагиата – поиск сходства между двумя текстами Построение авторского профиля – т.е. установление пола, возраста, образования и т.п. автора конкретного текста Построение авторского профиля – т.е. установление пола, возраста, образования и т.п. автора конкретного текста Установления стилистической непоследовательности текста (что может означать, что работало несколько авторов) Установления стилистической непоследовательности текста (что может означать, что работало несколько авторов)
3 Содержание Определение автора как задача классификации Определение автора как задача классификации Методы атрибуции Методы атрибуции
4 Определение авторства как задача классификации Дано: Дано: текст неизвестного автора текст неизвестного автора набор возможных авторов набор возможных авторов примеры текстов для каждого из возможных авторов примеры текстов для каждого из возможных авторов Задача: Задача: отнести изучаемый текст к одной из представленных групп отнести изучаемый текст к одной из представленных групп Вопрос в том, какие свойства использовать для классификации Вопрос в том, какие свойства использовать для классификации
5 Стилистические свойства Символьные Символьные Лексические Лексические Синтаксические Синтаксические Семантические Семантические Тематические Тематические
6 Лексические свойства текстов Словарный запас Словарный запас – зависит от объема текста, не может использоваться в одиночку Частотные распределения слов Частотные распределения слов – текст как вектор (bag of words) – служебные слова (предлоги, союзы, артикли) более важны, чем значимая лексика: они используются бессознательно, их распределения сохраняются для разных тем и жанров – размерность пространства классификации сильно ниже, чем в тематической классификации N-граммы (сочетания слов) N-граммы (сочетания слов) – не всегда улучшают качество – для их использования нужны большие объемы корпусов
7 Символьные свойства текста Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинания Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинания N-граммы – сочетания букв N-граммы – сочетания букв – более устойчивы к шумам (например, опечаткам), чем лексические свойства – выбор N зависит от языка; чем больше N, тем больше размерность пространства классификации, тем большие нужен корпус; маленькие N (2-4) – свойства типа слогов Модели сжатия Модели сжатия – чувствительны к тематике текстов
8 Синтаксические свойства Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика Требуется синтаксический разбор текста – такой метод уже не может быть языково-независимым Требуется синтаксический разбор текста – такой метод уже не может быть языково-независимым Данные всегда зашумлены (из-за несовершенства синтаксического анализа) Данные всегда зашумлены (из-за несовершенства синтаксического анализа) Уровень анализа может быть разным: Уровень анализа может быть разным: Частотные распределения частей речи Частотные распределения частей речи Локальный синтаксис Локальный синтаксис Глобальная структура предложения Глобальная структура предложения Словосочетания определенного типа Словосочетания определенного типа
9 Семантические свойства Семантический анализ сам по себе менее развит, семантическая разметка дает большее число ошибок – как следствие, точность анализа снижается Семантический анализ сам по себе менее развит, семантическая разметка дает большее число ошибок – как следствие, точность анализа снижается Было несколько попыток использовать семантические классы слов (WordNet) для определения авторства, однако неочевидно, что это дает преимущество по сравнению с другими методами Было несколько попыток использовать семантические классы слов (WordNet) для определения авторства, однако неочевидно, что это дает преимущество по сравнению с другими методами
10 Тематические свойства Если тематика сообщений заранее известна (например, речь идет об анонимном сообщении на тематическом интернет-форуме), то можно использовать авторские предпочтения в выборе тех или иных слов, характерных для этой предметной области (доменных синонимов) Если тематика сообщений заранее известна (например, речь идет об анонимном сообщении на тематическом интернет-форуме), то можно использовать авторские предпочтения в выборе тех или иных слов, характерных для этой предметной области (доменных синонимов) Однако этот метод очень трудно автоматизировать – и, как следствие, переносить с одной задачи на другую Однако этот метод очень трудно автоматизировать – и, как следствие, переносить с одной задачи на другую
11 Выбор свойств В определении авторства лучше всего работает не одно какое-то свойство, а их сочетание В определении авторства лучше всего работает не одно какое-то свойство, а их сочетание Обычно набор свойств сначала проверяют на обучающей выборке и выбирают наиболее дискриминирующие Обычно набор свойств сначала проверяют на обучающей выборке и выбирают наиболее дискриминирующие Дискриминирующие свойства Дискриминирующие свойства наиболее частотны наиболее частотны наименее стабильны (т.е. имеют большое число синонимов) наименее стабильны (т.е. имеют большое число синонимов) Можно использовать методы снижения размерности в пространстве слов Можно использовать методы снижения размерности в пространстве слов
12 Содержание Определение автора как задача классификации Определение автора как задача классификации Методы атрибуции Методы атрибуции
13 Ориентированные на автора
14 Ориентированные на текст
15 Источники Efstathios Stamatatos A Survey of Modern Authorship Attribution Methods // Journal of the American Society for Information Science and Technology Volume 60, Issue 3, pages 538– 556, March atatos_survey2009. pdf Efstathios Stamatatos A Survey of Modern Authorship Attribution Methods // Journal of the American Society for Information Science and Technology Volume 60, Issue 3, pages 538– 556, March atatos_survey2009. pdf atatos_survey2009. pdf atatos_survey2009.pdf
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.