Hadoop & Wikimart Роман Зыков Moscow, BI trends, 11 th October 2012.

Презентация:



Advertisements
Похожие презентации
BigData изнутри: технологии и алгоритмы Александр Сербул руководитель направления, разработчик Партнерская конференция «1С-Битрикс»
Advertisements

Новинки и обновления платформы, октябрь 2012 Владимир Юнев, Microsoft Вебинар начнется в (Москва)
Для высоконагруженных проектов Облачная платформа Windows Azure.
Инструментальная система разработки распределенных приложений «SiTex»
LOGO Add your company slogan Back CRM и миллионные аудитории Обзор решения.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Многомерный анализ данных на основе Oracle Essbase Сахаров Андрей вед. консультант Oracle CIS.
Распределенные и параллельные вычисления на MS SQL (always on). Адаптация для 1С 8 Сердюк Владимир Баркетов Павел.
Поисковые движки. Sphinx Search Engine. Докладчик: Роман Кудлай
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Сколько стоит интернет-магазин? На чем можно сэкономить. Тарасенко Роман Заместитель генерального директора Интернет-агентства Dextra.
Big Data пришли в Россию Объем данных в компаниях.
Шишкин Константин С-104 Разработка прототипа корпоративного портала средствами серверной технологии Microsoft SharePoint Дипломный проект.
Hadoop Лекция 1. Введение в Hadoop и MapReduce. Что такое Hadoop Инфраструктура (framework) для параллельной обработки больших объемов данных (терабайты)
Интеграция Deductor с Terrasoft CRM. BaseGroup Labs Анализ данных о клиентах Управление взаимоотношениями с клиентами не сводится только к фиксации событий,
ООО "Система" Платформа Разработки системы управления Выбор оптимального варианта для управления и развития Платформа Разработки системы управления Выбор.
1© Copyright 2012 EMC Corporation. All rights reserved. СПО для Больших Данных – Большой Риск или Большая Выгода? Денис Серов 12 апреля 2012.
Deductor 5 – эволюция платформы. BaseGroup Labs Причины изменений Deductor изменялся под влиянием требований, возникающих при его применения в реальных.
Отраслевые решения 1С-Битрикс Артем Рябинков руководитель отдела развития бизнеса, к.т.н.
Введение в аналитику больших данных Онлайн-курс. Цель и содержание курса Цель: ориентирование в области технологий и методологий анализа больших данных.
Транксрипт:

Hadoop & Wikimart Роман Зыков Moscow, BI trends, 11 th October 2012

Введение Быть или не быть…. Hadoop

Задачи Wikimart Что BI задачи Веб аналитика (внутреннее решение) Рекомендации на сайте Сервисы для маркетинга Кто Аналитический отдел Аналитики других отделов IT

Проблема Ждать или платить? Объем данных # сервисов

Map Reduce DATA Standalone Map Reduce

Наша идея Новая платформа только для больших задач Исследовать Map Reduce ПО Первый пациент – алгоритмы рекомендаций Сложности - нет бюджета -> Hadoop бесплатен - нет экспертов -> изучили - нет железа -> виртуальный кластер

Требования Масштабируемость Инсталляция Интеграция Без Java SQL запросы

Схема данных Сервисы данных DWH

Результаты Рекомендации Коллаборативная фильтрация (веб данные, PIG) Товары аналоги (атрибуты товаров, PIG) Популярные товары (веб данные, HiveQL) Поисковые рекомендации (HiveQL) 1 год эксплуатации >10% доходов 3 месяца на запуск Десятки гигабайт обрабатываются за 2 часа 1 авария из-за полного отключения питания Решение: Вложить деньги в железо

Конечный пользователь Внутренние ЯП HiveQL Pig BI задачи Агрегация данных для OLAP RDBMS как витрина OLAP и BI должны поддерживать HiveQL

Интеграция данных SQOOP Параллельный обмен с RDBMS (MS SQL, MySQL, Oracle, Teradata… ) Инкрементальное обновление HDFS, Hive, HBASE Talend Open Studio

Hadoop и RDBMS Не заменят RDBMS: Задержка Слабые возможности HiveQL отн. SQL Задачи по оффлайн вычислениям: Машинное обучение Запросы к «большим» таблицам …. Онлайн запросы: NOSQL

Миф Терабайты? Петабайты? Big tasks!

Выводы Hadoop это не квантовая физика Вычислительные данные могут быть большими Starter kit Система управления Hadoop Виртуальное железо (облако и т.д.) Оффлайн вычисления Pig или HiveQL Sqoop: импорт/экспорт данных из БД

Спасибо!!!