Разработка инструмента для извлечения мнения о фильмах из русскоязычных сообщений сервиса Twitter Мерчи Александр Группа С-104 МИЭМ
Постановка задачи Анализ существующих на рынке систем по opinion mining; Спроектировать и разработать приложение для определения мнения о каком-либо фильме; Внедрить разработанное приложения в Интернет для общего доступа пользователей.
Opinion Mining Определение Opinion Mining (анализ мнений) Актуальность Opinion Mining Примеры использования Opinion Mining
Анализ существующих решений
Разработка приложения для определения мнений
Общая схема работы приложения
Создание базы данных с фильмами Поиск источника данных Парсинг данных
Разработка приложения-паука для обновления базы сообщений из сервиса Twitter Что такое Twitter? Парсинг сообщений из Twittera Подготовка сообщений Фильтрация сообщений Анализ сообщений
Разработка анализатора сообщений Составление словаря эмоциональных слов Выбор инструмента для нормализации слов Алгоритм анализа текста
Составление словаря эмоциональных слов Ограничения сообщений Twittera Анализ рецензий Работа со словарем Ожегова
Выбор инструмента для нормализации текста Pymorphy Lemmatizer Mystem PHPMorphy
Нормализация слов
Анализ текста
Удаление дублирующихся записей Причины появления Удаление дублирующихся записей SELECT COUNT(*) AS dub, twitt FROM twitt GROUP BY twitt HAVING dub>1; DELETE FROM twitt WHERE twitt='$twitt' LIMIT ($dub-1);
Подсчет результатов Поиск записей по каждому фильму Подсчет количества положительных и отрицательных сообщений SELECT * FROM twitt WHERE id_movie = $films AND weight > 0; SELECT * FROM twitt WHERE id_movie = $films AND weight < 0;
Внедрение приложения для общего доступа в Интернет Выбор Хостинг-провайдера Установка скриптов в Crontab
Разработка интерфейса для online-доступа
Результаты выполнения поиска
Визуализация результатов
Рейтинг «ТОП-100»
Выводы В результате выполнения работы были: Проведен анализ существующих решений Разработано приложение для извлечения мнений о фильмах Приложение было внедрено в Интернет для всеобщего доступа
Перспективы развития Увеличение тем анализа сообщений Расширение мест поиска сообщений Улучшение алгоритма анализа сообщений Выделение различных качеств объектов при анализе сообщений
Спасибо за внимание Вопросы? Контакты: ICQ: