Икрам Магжан
Что такое коллективный разум? Машинное обучение Рекомендация товара на основе коллаборативной фильтраций Литература
Коллективный разум в жизни Задача1 Хотим посетить кинотеатр, но не знаем на какой фильм идти лучше Решение: Спрашиваем у людей, которые посмотрели Рецензия зрителей Оценка кинокритиков Задача2 Хотим купить новую художественную литературу, но не знаем какую выбрать Решение: Смотрим отзывы людей, которые читали эту книжку
В 2006 году Компания Netflix занимающийся онлайн прокатом DVD, объявляет конкурс на 1 млн. долларов по улучшению точности системы рекомендования фильмов на 10% году победителю удалось добиться улучшения на 7%. Пользуясь данными о том, какие фильмы нравятся пользователям, Netflix удается рекомендовать своим клиентам такие фильмы, о которых они даже не слышали. В 1998 году запускается новая поисковая машина Google, когда на рынке уже имелось несколько крупных поисковых систем. Основатели разработали новый подход к ранжированию результатов поиска, основанный на использовании ссылок с миллионов сайтов. В 2004 году поисковик обслуживал 85% всех поисковых запросов всего Интернета. Общее между этими компаниями: выстроили бизнес на применении изощренных алгоритмов объединения данных, полученных от множества людей.
Определение Извлечение нового знания из объединенных предпочтений, поведения и представлений некоторой группы.
Каким образом извлечь полезную информацию?
Определение подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Некоторые задачи машинного обучения Задача классификации Задача восстановления регрессии Задача кластеризации
Задача классификации Имеются набор реклам(товаров, новостей и т.д.), которых нужно отобразить на сайте посетители и пользователи этого сайта. Какие из реклам нужно показать для определенного пользователя, чтобы тот «кликал» по ним? Для пользователя имеем: Историю продаж Историю посещения страниц
Обучающая выборка История продаж История посещения страниц Требуется Построить алгоритм(классификатор), который по набору признаков реклам(товаров, новостей и т.д.) определяет отображать(1-класс) данные на сайте для данного пользователя или нет(2- класс).
Медицинская диагностика: по набору медицинских характеристик требуется поставить диагноз Геологоразведка: по данным зондирования почв определить наличие полезных ископаемых Оптическое распознавание текстов: по отсканированному изображению текста определить цепочку символов, его формирующих Кредитный скоринг: по анкете заемщика принять решение о выдаче/отказе кредита Синтез химических соединений: по параметрам химических элементов спрогнозировать свойства получаемого соединения
Рекомендацию можно получить достаточно спросив у друзей, знакомых и т.д. Но по мере увеличения количества предложений становится все менее практично основывать решение на основе небольшой группы людей
Коллаборативная фильтрация просматривает большую группу людей и отыскивает в ней меньшую группу с такими же вкусами, как у вас. смотрит, какие еще вещи им нравятся, объединяет предпочтения создает ранжированный список предложений
Рассмотрим систему рекомендаций фильмов для определенного пользователя на основе оценок кинокритиков
Сбор данных о предпочтениях Язык программирования Python Способ преставления кинокритиков – вложенный словарь МстителиЗащитникЖауж ү рек мы ң бала Мачо и Ботан Морской бой Миссия невыполни ма 4 Азиз Арман Юрий Магжан Жанар Егор Жасулан
Нахождение похожих критиков Собрав данные, нужно определить насколько их вкусы схожи Оценка подобия Коэффициент корреляции Пирсона Евклидовое расстояние Манхэттенское расстояние Метрика Махаланобиса
Коэффициент корреляции Пирсона - выборочные дисперсии - выборочные средние - выборки
-0.258ЖасуланЖанар 0.396АрманЮрий 0.662АзизМагжан 0.991АрманМагжан 0.924ЖасуланМагжан ЖанарМагжан Коэффициенты корреляции Пирсона
Ранжирование критиков С помощью оценки подобия ищем наилучшее соответствие между критиками Ищем кинокритиков с таким или наиболее схожим со вкусом пользователя
1.0Егор 0.99Арман 0.92Жасулан 0.66Азиз 0.38Юрий Ранжирование критиков
Ранжирование фильмов Вычисляется взвешенная сумма оценок критиков Сортировка по получившимся результатам
Результат 3.0Жауж ү рек мы ң бала 3.0Миссия невыполнима 4 2.5Мстители
Сегаран Т. – Программируем коллективный разум, OReilly, 2008 г. Ветров Д. П., Кропотов Д. А. – Байесовские методы машинного обучения, Курс лекции Дьяконов А.Г. – Анализ данных, обучение по прецедентам, Издательский отдел факультета ВМК МГУ имени Ломоносова, – Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных.
Спасибо за внимание!