Анализ тональности сообщений Лидия Михайловна Пивоварова Системы понимания текста
Введение Opinion Mining – извлечение мнений, а не фактов: Opinion Mining – извлечение мнений, а не фактов: Поиск отзывов о товарах и услугах (как потребителями, так и производителями) Поиск отзывов о товарах и услугах (как потребителями, так и производителями) Анализ мнений для политологических, социологических и др. исследований Анализ мнений для политологических, социологических и др. исследований Другие приложения: Другие приложения: Рекомендательные системы Рекомендательные системы Извлечение информации Извлечение информации Вопросно-ответный поиск Вопросно-ответный поиск
Общая схема Объект O имеет (иерархический) набор свойств f i Объект O имеет (иерархический) набор свойств f i Каждое свойство может выражаться набором слов/словосочетаний w i - синонимов Каждое свойство может выражаться набором слов/словосочетаний w i - синонимов Субъект (opinion holder) высказывает свое мнение об O или о каких-то его свойствах Субъект (opinion holder) высказывает свое мнение об O или о каких-то его свойствах
Основные задачи На уровне документа: Классификация тональности Классификация тональности Классы: позитивный, негативный, нейтральный Классы: позитивный, негативный, нейтральный Предполагается, что каждый документ содержит мнение только об одном объекте и только одного субъекта Предполагается, что каждый документ содержит мнение только об одном объекте и только одного субъекта На уровне предложения: Идентификация предложений, содержащих мнения Идентификация предложений, содержащих мнения Определение тональности предложения Определение тональности предложения Предполагается, что каждое предложение содержит только одно мнение Предполагается, что каждое предложение содержит только одно мнение На уровне свойств: Определение свойств, которые оценивает субъект Определение свойств, которые оценивает субъект Сгруппировать синонимы (если они неизвестны) Сгруппировать синонимы (если они неизвестны) Идентифицировать тональность оценки Идентифицировать тональность оценки
Классификация документов Классификация – классическая задача машинного обучения Классификация – классическая задача машинного обучения Различия с тематической классификацией только в используемых свойствах Различия с тематической классификацией только в используемых свойствах Наличие терминов и их частота (часто взвешенная) Наличие терминов и их частота (часто взвешенная) Части речи – для определения тональности принципиально важны прилагательные и наречия Части речи – для определения тональности принципиально важны прилагательные и наречия Оценочные слова и словосочетания (словарь или более сложная структура типа WordNet) Оценочные слова и словосочетания (словарь или более сложная структура типа WordNet) Синтаксические зависимости – позволяют делать предположения о семантических отношениях между оценочными и тематическими словами Синтаксические зависимости – позволяют делать предположения о семантических отношениях между оценочными и тематическими словами Отрицания – могут изменить мнение на противоположное Отрицания – могут изменить мнение на противоположное
Категоризация документов Список оценочной лексики (прилагательные и наречия) Список оценочной лексики (прилагательные и наречия) Для всех упоминаний объекта и/или его свойств рядом с оценочной лексикой, подсчитывается коэффициент взаимной информации: Для всех упоминаний объекта и/или его свойств рядом с оценочной лексикой, подсчитывается коэффициент взаимной информации: Итоговая оценка для данного упоминания: Итоговая оценка для данного упоминания: Оценка суммируется для документа в целом Оценка суммируется для документа в целом
Уровень документа и предложения Документ может быть очень противоречивым Документ может быть очень противоречивым Требуется переход на уровень предложений Требуется переход на уровень предложений Классификация предложений: Классификация предложений: Объективные/субъективные Объективные/субъективные И затем негативные/позитивные И затем негативные/позитивные Но: позитивная оценка объекта не означает позитивной оценки всех его свойств (и vice versa) Но: позитивная оценка объекта не означает позитивной оценки всех его свойств (и vice versa) Предложения могут быть очень сложными – нужно переходить на уровень отдельных свойств Предложения могут быть очень сложными – нужно переходить на уровень отдельных свойств
Оценка свойств Идентификация свойств Идентификация свойств Группировка синонимов Группировка синонимов Определение оценок Определение оценок Подходы очень похожи на Information Extraction: Подходы очень похожи на Information Extraction: (Named) Entity Recognition + установление фактов (оценок) (Named) Entity Recognition + установление фактов (оценок) Словари, образцы, машинное обучение Словари, образцы, машинное обучение
Сравнения Два вида оценок: Два вида оценок: X хороший (плохой, тяжелый, легкий, звонкий…) X хороший (плохой, тяжелый, легкий, звонкий…) X лучше (хуже, выше, ниже, толще, мощнее…) чем Y X лучше (хуже, выше, ниже, толще, мощнее…) чем Y Требуют более детальной обработки Требуют более детальной обработки Типы сравнений: Типы сравнений: Градации Градации A лучше B A лучше B А такой же как B А такой же как B A лучше всех A лучше всех Сравнения по свойствам Сравнения по свойствам У A есть характеристики, которых нет у B У A есть характеристики, которых нет у B У А одни свойства, у В другие У А одни свойства, у В другие А похож на В не считая некоторых свойств А похож на В не считая некоторых свойств
Примеры сравнений
Построение словарей Вручную Вручную На основе существующих словарей и тезаурусов (WordNet) На основе существующих словарей и тезаурусов (WordNet) Автоматически Автоматически Bootstrapping Bootstrapping Она умная и красивая vs. Она умная, но вредная Она умная и красивая vs. Она умная, но вредная Возможно построение доменно- ориентированных словарей Возможно построение доменно- ориентированных словарей
Источники Liu B. Sentiment Analysis and Subjectivity // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp Liu B. Sentiment Analysis and Subjectivity // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp Bing Liu Web Data Mining. Lecture Slides, Chapter 11 – Bing Liu Web Data Mining. Lecture Slides, Chapter 11 – Bing Liu Opinion Mining and Summarization, tutorial - analysis.pdf Bing Liu Opinion Mining and Summarization, tutorial - analysis.pdf analysis.pdf analysis.pdf Bo Pang and Lillian Lee Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, – mining-sentiment-analysis-survey.html Bo Pang and Lillian Lee Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, – mining-sentiment-analysis-survey.htmlhttp:// mining-sentiment-analysis-survey.htmlhttp:// mining-sentiment-analysis-survey.html