1© Copyright 2012 EMC Corporation. All rights reserved. СПО для Больших Данных – Большой Риск или Большая Выгода? Денис Серов 12 апреля 2012
2© Copyright 2012 EMC Corporation. All rights reserved. Source: 2011 IDC Digital Universe Study В ЭТОМ ДЕСЯТИЛЕТИИ ЦИФРОВАЯ ВСЕЛЕННАЯ ВЫРАСТЕТ В 50 РАЗ ОТ 0.9 ДО 44 ЗЕТАБАЙТ
3© Copyright 2012 EMC Corporation. All rights reserved. 90% ЦИФРОВОЙ ВСЕЛЕННОЙ НЕСТРУКТУРИРОВАНО Source: 2011 IDC Digital Universe Study
4© Copyright 2012 EMC Corporation. All rights reserved. Происхождение Больших Данных Geophysical Exploration Medical Imaging Video Surveillance Mobile Sensors Video Rendering Gene Sequencing Smart Grids Social Media Electronic Payments
5© Copyright 2012 EMC Corporation. All rights reserved. БОЛЬШИЕ ДАННЫЕ МЕНЯЮТ БИЗНЕС
6© Copyright 2012 EMC Corporation. All rights reserved. Феномен Больших Данных На порядки больше, чем в традиционных СУБД Сотни ГБайт – это low end Больших Данных Обычно – от ТБайтов до ПБайтов Данные разного рода Обрабатывается весь объем данных Один компьютер точно с этим не справится Задачу обработки можно решать параллельно –масштабируемый кластер –распределенная файловая система Большие Данные - это сколько?
7© Copyright 2012 EMC Corporation. All rights reserved. Традиционные платформы для аналитики Только структурированные данные Вертикальное масштабирование Анализ Тбайтов старых данных
8© Copyright 2012 EMC Corporation. All rights reserved. Что если Аналитика будет подобна Google ? 1,000,000,000 запросов в день 900мс среднее время обработки запроса
9© Copyright 2012 EMC Corporation. All rights reserved. Новая Платформа для Аналитики Больших Данных Горизонтальное масштабирование Анализ Петабайт текущих данных Структурированные и неструктурированные данные
10© Copyright 2012 EMC Corporation. All rights reserved. Зачем Вам параллельные вычисления? Потому что закон Мура не помогает решить проблему! Даже сотни и тысячи ядер в одном сервере не способны обработать Большие Данные Наращивание производительности и емкости сложно Все решается при переходе к параллельным вычислениям Interconnect Data Loading Interconnec t Data Loading
11© Copyright 2012 EMC Corporation. All rights reserved. Interconnect СУБД EMC Greenplum Массивно параллельная обработка данных - MPP Экстремальная масштабируемость Автоматическая параллелизация Онлайн-расширение Data Loading Interconnec t Data Loading
12© Copyright 2012 EMC Corporation. All rights reserved. Open Source решения для Больших Данных 1.Условно бесплатный доступ к коду 2.Возможность модификации под свои нужды 3.Больше возможностей разработки 4.Экспертиза сообщества СПО 5.Быстрая отладка кода Хочется попробовать, бесплатно и прямо сейчас
13© Copyright 2012 EMC Corporation. All rights reserved. Open Source решения для Больших Данных 1.Проект может затянуться 2.Неверный расчет ресурсов/людей/денег 3.Срыв проекта под одного заказчика 4.Резкая смена конъюнктуры рынка 5.Невозможность внедрения в корпоративной среде Бесплатный сыр бывает только в мышеловке?
14© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – open source среда для Больших Данных
15© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования В среде с одним сервером нет проблем обработки аппаратного отказа Выполнение параллельных вычислений – огромная трудность Работа с большим объемом данных требует распределения частей задачи по множеству машин для параллельного выполнения Вероятность отказа хотя бы одного из N узлов –P 1/n =1-(1-P 1 )^N=N*P 1 Параллельная обработка данных повышает риск сбоев
16© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования Частичный или полный отказ внутренней сети Запаздывание прихода данных Сбои отдельных узлов в связи с перегревами, крэшами, отказами, недостатком памяти или места на дисках Повреждение данных при сохранении или передаче Рассинхронизация часов Не отпущенные вовремя блокировки итд Сбои при параллельной обработке – обычное дело
17© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования 1.В случае сбоя, оставшаяся часть распределенной системы должна восстановить и продолжить нормальную работу Hadoop спроектирован таким образом, чтобы гарантированно обеспечивать стабильность работы и целостность данных в условиях всевозможных сбоев Требование 1
18© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования 2.Успешная распределенная система должна эффективно управлять ресурсами разных узлов: –Процессорной мощностью –Оперативной памятью –Местом на жестких дисках –Сетевая пропускная способность Нadoop не только может поддерживать работу кластера как единого целого, но и выделяет при этом максимум ресурсов основным вычислениям. Требование 2
19© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования 3.Система должна обеспечивать эффективную синхронизацию между узлами и поддерживая вычислительный процесс даже в случае сбоя. Hadoop спроектирован так, что при отказе одного из N узлов – потеря производительности составляет около 1/N %, а работа потерянного узла автоматически перезапускается наиболее оптимальным образом Требование 3
20© Copyright 2012 EMC Corporation. All rights reserved. Архитектура Hadoop HDFS - Hadoop Distributed File System Hive – язык запросов к данным в распределенном хранилище данных на базе HDFS Pig – язык параллельной обработки данных в среде MapReduce Hbase – база данных Hadoop с линейной и распределенной масштабируемостью Zookeeper – высоконадежный сервис централизованной координации распределенного выполнения заданий Технология и ее преимущества
21© Copyright 2012 EMC Corporation. All rights reserved. Hadoop на EMC Greenplum Open Source разработка Масштабная распределенная инфраструктура для пакетной обработки. Масштабируемость от десятков до сотен и тысяч узлов Эффективное распараллеливание работы с Большими Данными Платформа для параллельной обработки Больших Данных
22© Copyright 2012 EMC Corporation. All rights reserved. Greenplum – это гибкость и выбор Программно аппаратный комплекс Greenplum Наращивается инкрементами по ¼ шкафа Готовые функциональные модули Быстрое развертывание Программные версии Greenplum Greenplum Database, Hadoop и Chorus на Вашем оборудовании x86 архитектуры Не лицензируется на тестовые окружения Возможность приобретения лицензии или подписки
23© Copyright 2012 EMC Corporation. All rights reserved. Старые процессы бизнес-аналитики Административные преграды Без коллаборации Реактивный стиль работы
24© Copyright 2012 EMC Corporation. All rights reserved. Что если коллаборация аналитиков станет подобна Facebook? 800,000,000 активных пользователей 900,000,000 меняющихся объектов 250,000,000 новых снимков в день
25© Copyright 2012 EMC Corporation. All rights reserved. Новые процессы аналитики Гибкость и изменяемость Самообслуживание Прозрачная коллаборация
26© Copyright 2012 EMC Corporation. All rights reserved. Greenplum Chorus Среда для коллаборации аналитиков Больших Данных
27© Copyright 2012 EMC Corporation. All rights reserved. Организации должны измениться Бизнес-пользователь Бизнес ИТ департамент Администратор СУБД Бизнес-аналитик
28© Copyright 2012 EMC Corporation. All rights reserved. Превратившись в команду Бизнес-пользователь Администратор платформы Бизнес-аналитик Исследователи данных
29© Copyright 2012 EMC Corporation. All rights reserved. MADlib – еще одна возможность для СПО сообщества Библиотека встраиваемых функций для аналитики Greenplum Создана – академиком –аналитиком –консультантом по СУБД –… и двумя hard-core разработчиками СУБД Magnetic, Agile, Deep
30© Copyright 2012 EMC Corporation. All rights reserved. MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики MADlib открытая библиотека для масштабируемой встроенной аналитики. –Параллельная математическая, статистическая обработка –Машинное обучение –Структурированные и неструктурированные данные Миссия MADlib: развитие массовых навыков параллельной масштабируемой аналитики Больших Данных
31© Copyright 2012 EMC Corporation. All rights reserved. MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики
32© Copyright 2012 EMC Corporation. All rights reserved. Гибкая аналитика это … Структурированные и неструктурированные данные, Анализ Петабайт текущих данных, Горизонтальная масштабируемость Самообслуживание, Гибкость, Прозрачность, Коллаборация в реальном времени Analytic Productivity Platform Agile Process & Tools Analytics Engines Analytic Engines Открытая библиотека встраиваемых функций для скоростной параллельной обработки Данных
33© Copyright 2012 EMC Corporation. All rights reserved. На основе ПО EMC Greenplum Структурированные и неструктурированные данные, Анализ Петабайт текущих данных, Горизонтальная масштабируемость Самообслуживание, Гибкость, Прозрачность, Коллаборация в реальном времени Открытая библиотека встраиваемых функций для скоростной параллельной обработки Данных С
34© Copyright 2012 EMC Corporation. All rights reserved. ИТОГИ Использование СПО для Больших Данных это не только Большая Выгода, но и риск Чтобы снизить риск, нужно выбрать оптимальную платформу –Архитектурная надежность –Параллельная обработка –Масштабируемость –Возможность поддержки корпоративного класса –Возможность предварительно протестировать EMC предлагает Open Source сообществу: –Greenplum – СУБД и платформа для Больших Данных –Hadoop – платформу для неструктурированных Данных –Chorus – платформа для коллаборации аналитиков –MADLib - набор встроенных аналитических функций