Дифференцированное измерение эмоциональности текстов с помощью алгоритма PMI-IR Андрей Четвериков
Зачем оценивать эмоции в тексте? Необходимы практичные и эффективные методы оценки эмоционального состояния Физиологические методы и самоотчеты не подходят Развитие affective computing требует методов оценки эмоций в тексте Компьютеры + интернет => много «живого» материала для анализа
PMI-IR Pointwise Mutual Information - Information Retrieval Автор метода – Peter D. Turney (2001) Первоначальная область применения: поиск синонимов
Pro et contra За: 1) Гигантский корпус текстов => высокая точность 2) Не требует «словаря эмоций» 3) Высокая скорость работы 4) Не требует предварительной экспертной оценки 5) Возможен выбор любых шкал оценки Против: 1) Анализ в основном «языка описания эмоций» 2) Не учитывает контекст (на данном этапе) 3) Поисковый спам
Программа «ЭСКА» 1.Шкалы – 10 эмоций К. Изарда, по 2 слова на эмоцию. Пример: радость|наслаждение для эмоции «радость». 2.Обучение: 400 записей из LiveJournal (ЖЖ), около уникальных слов. 3.Проверка: 70 записей из LiveJournal, оцененных 4 экспертами по 11 шкалам (10 эмоций + валентность)
Экспертная оценка (тексты брались из общедоступных записей)
Эксперты vs ЭСКА ЭмоцииЭксперты~ЭСКАЭксперты SE-07 PMI-IRSE-07 Top Интерес0140 Радость Удивление Горе Гнев Страх Отвращение Презрение2038 Стыд0841 Вина2977 Валентность r Пирсона * 100
Выводы 1.PMI-IR работает на русскоязычных текстах 2.Точность оценки увеличивается за счет использования композитных шкал 3.Есть большой простор для дальнейших разработок
Спасибо за внимание