Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемwww.cnews.ru
1 Hadoop & Wikimart Роман Зыков Moscow, BI trends, 11 th October 2012
2 Введение Быть или не быть…. Hadoop
3 Задачи Wikimart Что BI задачи Веб аналитика (внутреннее решение) Рекомендации на сайте Сервисы для маркетинга Кто Аналитический отдел Аналитики других отделов IT
4 Проблема Ждать или платить? Объем данных # сервисов
5 Map Reduce DATA Standalone Map Reduce
6 Наша идея Новая платформа только для больших задач Исследовать Map Reduce ПО Первый пациент – алгоритмы рекомендаций Сложности - нет бюджета -> Hadoop бесплатен - нет экспертов -> изучили - нет железа -> виртуальный кластер
7 Требования Масштабируемость Инсталляция Интеграция Без Java SQL запросы
8 Схема данных Сервисы данных DWH
9 Результаты Рекомендации Коллаборативная фильтрация (веб данные, PIG) Товары аналоги (атрибуты товаров, PIG) Популярные товары (веб данные, HiveQL) Поисковые рекомендации (HiveQL) 1 год эксплуатации >10% доходов 3 месяца на запуск Десятки гигабайт обрабатываются за 2 часа 1 авария из-за полного отключения питания Решение: Вложить деньги в железо
10 Конечный пользователь Внутренние ЯП HiveQL Pig BI задачи Агрегация данных для OLAP RDBMS как витрина OLAP и BI должны поддерживать HiveQL
11 Интеграция данных SQOOP Параллельный обмен с RDBMS (MS SQL, MySQL, Oracle, Teradata… ) Инкрементальное обновление HDFS, Hive, HBASE Talend Open Studio
12 Hadoop и RDBMS Не заменят RDBMS: Задержка Слабые возможности HiveQL отн. SQL Задачи по оффлайн вычислениям: Машинное обучение Запросы к «большим» таблицам …. Онлайн запросы: NOSQL
13 Миф Терабайты? Петабайты? Big tasks!
14 Выводы Hadoop это не квантовая физика Вычислительные данные могут быть большими Starter kit Система управления Hadoop Виртуальное железо (облако и т.д.) Оффлайн вычисления Pig или HiveQL Sqoop: импорт/экспорт данных из БД
15 Спасибо!!!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.