Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста.

Презентация:



Advertisements
Похожие презентации
Анализ тональности сообщений Лидия Михайловна Пивоварова Системы понимания текста.
Advertisements

Языконезависимое определение авторства текста на базе языковых моделей символьного уровня.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.
Текстообразующие функции производных имен прилагательных в романе Б.Окуджавы «Путешествие дилетантов» Магистерская диссертация магистрантки филологического.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Выпускная работа « Основы информационных технологий » Тема : « Структурно - семантические параметры художественной синонимии как составляющие идиостиля.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Инструменты ИКТ в обучении лексике Web based Concordancers and other tools for Vocabulary development Москва, 2010 Наталья Катасонова.
Выход Алгебра - один из больших разделов математики, принадлежащий наряду с арифметикой и геометрией к числу старейших ветвей этой науки. Правила 8-ого.
1 Работу выполнил ученик 6 класса Стариков Иван. Работу выполнил ученик 6 класса Стариков Иван. Автор работы.
Коллокации и конструкции в исследовании структуры текста Лидия Пивоварова Елена Ягунова
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
О развитии речевых интеллектуальных и познавательных способностей младших школьников; об успешном овладении ими рядом общеучебных умений ( в частности.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Галян С.В., СурГПУ. Cначала – предметный материал 1. Определить предметные цели (они должны быть заданы операционально) 2. Отобрать предметный материал:
ЕГЭ по русскому языку в 2015 году в новом формате Часть 1: особенности структуры специфика подготовки.
Ситуационная задача. Кейс-задача.. ШАНС НА УСПЕХ умение сотрудничать, способность к общению, жизни в обществе и участию в нем; способность решать проблемы,
Обучение лексике. Что означает владеть лексикой? Особенности функционирования любой языковой единицы проявляются в 2х планах: семасиологический аспект.
Информационная система ( ИС ) – это система, построенная на базе компьютерной техники, предназначенная для хранения, поиска, обработки и передачи значительных.
Транксрипт:

Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста

Введение Определение авторства – определение одного автора из нескольких возможных Определение авторства – определение одного автора из нескольких возможных Верификация автора – установление, принадлежит ли данный текст данному автору Верификация автора – установление, принадлежит ли данный текст данному автору Определение плагиата – поиск сходства между двумя текстами Определение плагиата – поиск сходства между двумя текстами Построение авторского профиля – т.е. установление пола, возраста, образования и т.п. автора конкретного текста Построение авторского профиля – т.е. установление пола, возраста, образования и т.п. автора конкретного текста Установления стилистической непоследовательности текста (что может означать, что работало несколько авторов) Установления стилистической непоследовательности текста (что может означать, что работало несколько авторов)

Содержание Определение автора как задача классификации Определение автора как задача классификации Методы атрибуции Методы атрибуции

Определение авторства как задача классификации Дано: Дано: текст неизвестного автора текст неизвестного автора набор возможных авторов набор возможных авторов примеры текстов для каждого из возможных авторов примеры текстов для каждого из возможных авторов Задача: Задача: отнести изучаемый текст к одной из представленных групп отнести изучаемый текст к одной из представленных групп Вопрос в том, какие свойства использовать для классификации Вопрос в том, какие свойства использовать для классификации

Стилистические свойства Символьные Символьные Лексические Лексические Синтаксические Синтаксические Семантические Семантические Тематические Тематические

Лексические свойства текстов Словарный запас Словарный запас – зависит от объема текста, не может использоваться в одиночку Частотные распределения слов Частотные распределения слов – текст как вектор (bag of words) – служебные слова (предлоги, союзы, артикли) более важны, чем значимая лексика: они используются бессознательно, их распределения сохраняются для разных тем и жанров – размерность пространства классификации сильно ниже, чем в тематической классификации N-граммы (сочетания слов) N-граммы (сочетания слов) – не всегда улучшают качество – для их использования нужны большие объемы корпусов

Символьные свойства текста Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинания Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков препинания N-граммы – сочетания букв N-граммы – сочетания букв – более устойчивы к шумам (например, опечаткам), чем лексические свойства – выбор N зависит от языка; чем больше N, тем больше размерность пространства классификации, тем большие нужен корпус; маленькие N (2-4) – свойства типа слогов Модели сжатия Модели сжатия – чувствительны к тематике текстов

Синтаксические свойства Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика Автор использует набор синтаксических паттернов, которые хуже осознаются, чем лексика Требуется синтаксический разбор текста – такой метод уже не может быть языково-независимым Требуется синтаксический разбор текста – такой метод уже не может быть языково-независимым Данные всегда зашумлены (из-за несовершенства синтаксического анализа) Данные всегда зашумлены (из-за несовершенства синтаксического анализа) Уровень анализа может быть разным: Уровень анализа может быть разным: Частотные распределения частей речи Частотные распределения частей речи Локальный синтаксис Локальный синтаксис Глобальная структура предложения Глобальная структура предложения Словосочетания определенного типа Словосочетания определенного типа

Семантические свойства Семантический анализ сам по себе менее развит, семантическая разметка дает большее число ошибок – как следствие, точность анализа снижается Семантический анализ сам по себе менее развит, семантическая разметка дает большее число ошибок – как следствие, точность анализа снижается Было несколько попыток использовать семантические классы слов (WordNet) для определения авторства, однако неочевидно, что это дает преимущество по сравнению с другими методами Было несколько попыток использовать семантические классы слов (WordNet) для определения авторства, однако неочевидно, что это дает преимущество по сравнению с другими методами

Тематические свойства Если тематика сообщений заранее известна (например, речь идет об анонимном сообщении на тематическом интернет-форуме), то можно использовать авторские предпочтения в выборе тех или иных слов, характерных для этой предметной области (доменных синонимов) Если тематика сообщений заранее известна (например, речь идет об анонимном сообщении на тематическом интернет-форуме), то можно использовать авторские предпочтения в выборе тех или иных слов, характерных для этой предметной области (доменных синонимов) Однако этот метод очень трудно автоматизировать – и, как следствие, переносить с одной задачи на другую Однако этот метод очень трудно автоматизировать – и, как следствие, переносить с одной задачи на другую

Выбор свойств В определении авторства лучше всего работает не одно какое-то свойство, а их сочетание В определении авторства лучше всего работает не одно какое-то свойство, а их сочетание Обычно набор свойств сначала проверяют на обучающей выборке и выбирают наиболее дискриминирующие Обычно набор свойств сначала проверяют на обучающей выборке и выбирают наиболее дискриминирующие Дискриминирующие свойства Дискриминирующие свойства наиболее частотны наиболее частотны наименее стабильны (т.е. имеют большое число синонимов) наименее стабильны (т.е. имеют большое число синонимов) Можно использовать методы снижения размерности в пространстве слов Можно использовать методы снижения размерности в пространстве слов

Содержание Определение автора как задача классификации Определение автора как задача классификации Методы атрибуции Методы атрибуции

Ориентированные на автора

Ориентированные на текст

Источники Efstathios Stamatatos A Survey of Modern Authorship Attribution Methods // Journal of the American Society for Information Science and Technology Volume 60, Issue 3, pages 538– 556, March atatos_survey2009. pdf Efstathios Stamatatos A Survey of Modern Authorship Attribution Methods // Journal of the American Society for Information Science and Technology Volume 60, Issue 3, pages 538– 556, March atatos_survey2009. pdf atatos_survey2009. pdf atatos_survey2009.pdf