Hadoop & Wikimart Роман Зыков Moscow, BI trends, 11 th October 2012
Введение Быть или не быть…. Hadoop
Задачи Wikimart Что BI задачи Веб аналитика (внутреннее решение) Рекомендации на сайте Сервисы для маркетинга Кто Аналитический отдел Аналитики других отделов IT
Проблема Ждать или платить? Объем данных # сервисов
Map Reduce DATA Standalone Map Reduce
Наша идея Новая платформа только для больших задач Исследовать Map Reduce ПО Первый пациент – алгоритмы рекомендаций Сложности - нет бюджета -> Hadoop бесплатен - нет экспертов -> изучили - нет железа -> виртуальный кластер
Требования Масштабируемость Инсталляция Интеграция Без Java SQL запросы
Схема данных Сервисы данных DWH
Результаты Рекомендации Коллаборативная фильтрация (веб данные, PIG) Товары аналоги (атрибуты товаров, PIG) Популярные товары (веб данные, HiveQL) Поисковые рекомендации (HiveQL) 1 год эксплуатации >10% доходов 3 месяца на запуск Десятки гигабайт обрабатываются за 2 часа 1 авария из-за полного отключения питания Решение: Вложить деньги в железо
Конечный пользователь Внутренние ЯП HiveQL Pig BI задачи Агрегация данных для OLAP RDBMS как витрина OLAP и BI должны поддерживать HiveQL
Интеграция данных SQOOP Параллельный обмен с RDBMS (MS SQL, MySQL, Oracle, Teradata… ) Инкрементальное обновление HDFS, Hive, HBASE Talend Open Studio
Hadoop и RDBMS Не заменят RDBMS: Задержка Слабые возможности HiveQL отн. SQL Задачи по оффлайн вычислениям: Машинное обучение Запросы к «большим» таблицам …. Онлайн запросы: NOSQL
Миф Терабайты? Петабайты? Big tasks!
Выводы Hadoop это не квантовая физика Вычислительные данные могут быть большими Starter kit Система управления Hadoop Виртуальное железо (облако и т.д.) Оффлайн вычисления Pig или HiveQL Sqoop: импорт/экспорт данных из БД
Спасибо!!!