Языконезависимое определение авторства текста на базе языковых моделей символьного уровня.

Презентация:



Advertisements
Похожие презентации
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Advertisements

1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста.
Связь правовой информатики с другими науками 1. Кибернетика Семиотика Лингвистика Когнитивная психология Теория информации Информациология 2.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
ИНФОРМАЦИОННАЯ ЧУВСТВИТЕЛЬНОСТЬ КОМПЬЮТЕРНЫХ АЛГОРИТМОВ И ЕЁ КОЛИЧЕСТВЕННЫЕ МЕРЫ д.т.н., профессор М.В. Ульянов Кафедра «Управление разработкой программного.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Логико-статистические методы представления языковых структур в машинном переводе Елена Борисовна Козеренко Институт проблем информатики РАН
Выравнивание статистических рядов. Во всяком статистическом распределении неизбежно присутствуют элементы случайности, связанные с тем, что число наблюдений.
Основы надежности ЛА МАТЕМАТИЧЕСКИЕ МОДЕЛИ НАДЕЖНОСТИ.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Ситуационная задача. Кейс-задача.. ШАНС НА УСПЕХ умение сотрудничать, способность к общению, жизни в обществе и участию в нем; способность решать проблемы,
МЕТОД ЭКСПЕРТНЫХ ОЦЕНОК. ЭКСПЕРТИЗА В УПРАВЛЕНИИ Роль экспертов в управлении: Основные трудности, связанные с информацией, возникающие при выработке сложных.
Принятие решений в условиях риска Методы принятия решений в условиях риска разрабатываются и обосновываются в рамках так называемой теории статистических.
Вероятности случайных событий. Теория вероятностей математическая наука, изучающая закономерности случайных явлений.
Моделирование поведения взаимодействующих агентов в среде с ограничениями Юданов А.А., студент 525 гр. Научный руководитель: к.ф.-м.н. Бордаченкова Е.А.
Теория научной информации Лекция специального курса «Информационное обеспечение зоологических исследований» С. В. Буга.
Лекция 5. Модели надежности программного обеспечения Учебные вопросы: 1. Классификация моделей надежности 2. Аналитические модели надежности 3. Эмпирические.
Транксрипт:

Языконезависимое определение авторства текста на базе языковых моделей символьного уровня

Проблема определения авторства текста Невыясненное авторство исторических документов Категоризация коллекций документов Извлечение информации Вопросно-ответные системы

Принцип определения авторства Автор при составлении текста использует языковые средства различных уровней: Семантические Синтаксические Лексикографические Орфографические Морфологические Особенности использованных в тексте языковых средств позволяют судить об авторстве текста.

Возможные подходы к решению проблемы определения авторства Стилистический анализ Статистическое языковое моделирование

Стилистический анализ Проводится в два этапа: 1)Извлечение стилевых маркеров 2)Построение классификатора

Недостатки метода Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста Выбор исследуемых свойств является нетривиальной задачей Анализ проводится только на уровне слов Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов

Статистическое языковое моделирование Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и морфологических шаблонов), на основе которых можно делать прогнозы Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте

Оценка качества модели Perplexity = Entropy =

N-граммная модель Вероятность появления цепочки слов: N-граммная модель аппроксимирует эту вероятность в предположении, что на вероятность появления слова влияют только последние n-1 слов:

N-граммная модель В самом простом случае Использование грамм длины n означает вычисление вероятностей событий Вероятность появления новых n-грамм всегда ненулевая.

Сглаживание вероятностных оценок

Принципы классификации Используется Баесова теория принятия решения: текст D относится к авторской категории если В соответствии с правилом Байеса:

Результаты классификации Греческий корпус: две коллекции по 200 документов 10 различных авторов, F-мера 74% и 90% Английский корпус: Alex Catalogue of Electronic Texts, 8 авторов, наилучшая F-мера 98% при использовании 6-граммной модели с абсолютным сглаживанием 8 авторов, F-мера 94% при использовании 3- граммной модели при использовании алгоритма сглаживания Виттена-Белла