1© Copyright 2012 EMC Corporation. All rights reserved. СПО для Больших Данных – Большой Риск или Большая Выгода? Денис Серов 12 апреля 2012.

Презентация:



Advertisements
Похожие презентации
BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин.
Advertisements

Hadoop Лекция 1. Введение в Hadoop и MapReduce. Что такое Hadoop Инфраструктура (framework) для параллельной обработки больших объемов данных (терабайты)
Администрирование информационных систем Лекция 4. Система управления базами данных.
Технические возможности. Наши цели Максимальная гибкость Максимальная скорость считывания и обработки данных Стабильность работы Максимальная простота.
Эффективное управление вузом Облачные центры обработки данных с использованием свободного программного обеспечения: миф или реальность Кузнецова Ирина.
Решения виртуализации для IT Платонов Евгений. Технологические тенденции архитектуры x86 Многоядерные процессоры развиваются 2 ядра в , 4 ядра в.
Разработка среды для облачных вычислений Дипломная работа студента 545 группы Чуновкина Фёдора Дмитриевича Научный руководитель : Бондарев А. В. Рецензент.
Приготовил: Емельянов Александр. Введение С конца 80-ых начала 90-ых годов проблемы связанные с защитой информации беспокоят как специалистов в области.
БАЗЫ ДАННЫХ часть II Распределенные и параллельные системы управления базами данных.
Государственное образовательное учреждение среднего профессионального образования. «Прокопьевский политехнический техникум» Причины сбоев и технология.
Корпоративные и промышленные сети. Корпоративная сеть Первые информационные системы предприятий строились на основе централизованных вычислительных центров.
Big Data пришли в Россию Объем данных в компаниях.
ПОНЯТИЕ ПРОГРАММЫ, ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ.. Программа - составленная на понятном компьютеру языке точная и подробная последовательность инструкций;
Локальная сеть Типы локальных сетей Топология сетей.
Работу выполнила студентка гр. 9 Бд 111 Евженко Дарья.
Технопарк в сфере высоких технологий «ИТ-парк» 28 мая 2014, г.Казань.
1. Теоретические основы операционных систем (планирование заданий и использования процессора, обеспечение программ средствами коммуникации и синхронизации,
Выполнила студентка группы ТУ-501 Полозова Ю.О. База данных (БД) представляет собой совокупность структурированных данных, хранимых в памяти вычислительной.
Распределенная обработка информации Разработано: Е.Г. Лаврушиной.
0 Вычислительные ресурсы как сервис От собственного ЦОД к ИТ мощностям как услуга Шумилин Алексей 0.
Транксрипт:

1© Copyright 2012 EMC Corporation. All rights reserved. СПО для Больших Данных – Большой Риск или Большая Выгода? Денис Серов 12 апреля 2012

2© Copyright 2012 EMC Corporation. All rights reserved. Source: 2011 IDC Digital Universe Study В ЭТОМ ДЕСЯТИЛЕТИИ ЦИФРОВАЯ ВСЕЛЕННАЯ ВЫРАСТЕТ В 50 РАЗ ОТ 0.9 ДО 44 ЗЕТАБАЙТ

3© Copyright 2012 EMC Corporation. All rights reserved. 90% ЦИФРОВОЙ ВСЕЛЕННОЙ НЕСТРУКТУРИРОВАНО Source: 2011 IDC Digital Universe Study

4© Copyright 2012 EMC Corporation. All rights reserved. Происхождение Больших Данных Geophysical Exploration Medical Imaging Video Surveillance Mobile Sensors Video Rendering Gene Sequencing Smart Grids Social Media Electronic Payments

5© Copyright 2012 EMC Corporation. All rights reserved. БОЛЬШИЕ ДАННЫЕ МЕНЯЮТ БИЗНЕС

6© Copyright 2012 EMC Corporation. All rights reserved. Феномен Больших Данных На порядки больше, чем в традиционных СУБД Сотни ГБайт – это low end Больших Данных Обычно – от ТБайтов до ПБайтов Данные разного рода Обрабатывается весь объем данных Один компьютер точно с этим не справится Задачу обработки можно решать параллельно –масштабируемый кластер –распределенная файловая система Большие Данные - это сколько?

7© Copyright 2012 EMC Corporation. All rights reserved. Традиционные платформы для аналитики Только структурированные данные Вертикальное масштабирование Анализ Тбайтов старых данных

8© Copyright 2012 EMC Corporation. All rights reserved. Что если Аналитика будет подобна Google ? 1,000,000,000 запросов в день 900мс среднее время обработки запроса

9© Copyright 2012 EMC Corporation. All rights reserved. Новая Платформа для Аналитики Больших Данных Горизонтальное масштабирование Анализ Петабайт текущих данных Структурированные и неструктурированные данные

10© Copyright 2012 EMC Corporation. All rights reserved. Зачем Вам параллельные вычисления? Потому что закон Мура не помогает решить проблему! Даже сотни и тысячи ядер в одном сервере не способны обработать Большие Данные Наращивание производительности и емкости сложно Все решается при переходе к параллельным вычислениям Interconnect Data Loading Interconnec t Data Loading

11© Copyright 2012 EMC Corporation. All rights reserved. Interconnect СУБД EMC Greenplum Массивно параллельная обработка данных - MPP Экстремальная масштабируемость Автоматическая параллелизация Онлайн-расширение Data Loading Interconnec t Data Loading

12© Copyright 2012 EMC Corporation. All rights reserved. Open Source решения для Больших Данных 1.Условно бесплатный доступ к коду 2.Возможность модификации под свои нужды 3.Больше возможностей разработки 4.Экспертиза сообщества СПО 5.Быстрая отладка кода Хочется попробовать, бесплатно и прямо сейчас

13© Copyright 2012 EMC Corporation. All rights reserved. Open Source решения для Больших Данных 1.Проект может затянуться 2.Неверный расчет ресурсов/людей/денег 3.Срыв проекта под одного заказчика 4.Резкая смена конъюнктуры рынка 5.Невозможность внедрения в корпоративной среде Бесплатный сыр бывает только в мышеловке?

14© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – open source среда для Больших Данных

15© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования В среде с одним сервером нет проблем обработки аппаратного отказа Выполнение параллельных вычислений – огромная трудность Работа с большим объемом данных требует распределения частей задачи по множеству машин для параллельного выполнения Вероятность отказа хотя бы одного из N узлов –P 1/n =1-(1-P 1 )^N=N*P 1 Параллельная обработка данных повышает риск сбоев

16© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования Частичный или полный отказ внутренней сети Запаздывание прихода данных Сбои отдельных узлов в связи с перегревами, крэшами, отказами, недостатком памяти или места на дисках Повреждение данных при сохранении или передаче Рассинхронизация часов Не отпущенные вовремя блокировки итд Сбои при параллельной обработке – обычное дело

17© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования 1.В случае сбоя, оставшаяся часть распределенной системы должна восстановить и продолжить нормальную работу Hadoop спроектирован таким образом, чтобы гарантированно обеспечивать стабильность работы и целостность данных в условиях всевозможных сбоев Требование 1

18© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования 2.Успешная распределенная система должна эффективно управлять ресурсами разных узлов: –Процессорной мощностью –Оперативной памятью –Местом на жестких дисках –Сетевая пропускная способность Нadoop не только может поддерживать работу кластера как единого целого, но и выделяет при этом максимум ресурсов основным вычислениям. Требование 2

19© Copyright 2012 EMC Corporation. All rights reserved. Hadoop – проблемы масштабирования 3.Система должна обеспечивать эффективную синхронизацию между узлами и поддерживая вычислительный процесс даже в случае сбоя. Hadoop спроектирован так, что при отказе одного из N узлов – потеря производительности составляет около 1/N %, а работа потерянного узла автоматически перезапускается наиболее оптимальным образом Требование 3

20© Copyright 2012 EMC Corporation. All rights reserved. Архитектура Hadoop HDFS - Hadoop Distributed File System Hive – язык запросов к данным в распределенном хранилище данных на базе HDFS Pig – язык параллельной обработки данных в среде MapReduce Hbase – база данных Hadoop с линейной и распределенной масштабируемостью Zookeeper – высоконадежный сервис централизованной координации распределенного выполнения заданий Технология и ее преимущества

21© Copyright 2012 EMC Corporation. All rights reserved. Hadoop на EMC Greenplum Open Source разработка Масштабная распределенная инфраструктура для пакетной обработки. Масштабируемость от десятков до сотен и тысяч узлов Эффективное распараллеливание работы с Большими Данными Платформа для параллельной обработки Больших Данных

22© Copyright 2012 EMC Corporation. All rights reserved. Greenplum – это гибкость и выбор Программно аппаратный комплекс Greenplum Наращивается инкрементами по ¼ шкафа Готовые функциональные модули Быстрое развертывание Программные версии Greenplum Greenplum Database, Hadoop и Chorus на Вашем оборудовании x86 архитектуры Не лицензируется на тестовые окружения Возможность приобретения лицензии или подписки

23© Copyright 2012 EMC Corporation. All rights reserved. Старые процессы бизнес-аналитики Административные преграды Без коллаборации Реактивный стиль работы

24© Copyright 2012 EMC Corporation. All rights reserved. Что если коллаборация аналитиков станет подобна Facebook? 800,000,000 активных пользователей 900,000,000 меняющихся объектов 250,000,000 новых снимков в день

25© Copyright 2012 EMC Corporation. All rights reserved. Новые процессы аналитики Гибкость и изменяемость Самообслуживание Прозрачная коллаборация

26© Copyright 2012 EMC Corporation. All rights reserved. Greenplum Chorus Среда для коллаборации аналитиков Больших Данных

27© Copyright 2012 EMC Corporation. All rights reserved. Организации должны измениться Бизнес-пользователь Бизнес ИТ департамент Администратор СУБД Бизнес-аналитик

28© Copyright 2012 EMC Corporation. All rights reserved. Превратившись в команду Бизнес-пользователь Администратор платформы Бизнес-аналитик Исследователи данных

29© Copyright 2012 EMC Corporation. All rights reserved. MADlib – еще одна возможность для СПО сообщества Библиотека встраиваемых функций для аналитики Greenplum Создана – академиком –аналитиком –консультантом по СУБД –… и двумя hard-core разработчиками СУБД Magnetic, Agile, Deep

30© Copyright 2012 EMC Corporation. All rights reserved. MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики MADlib открытая библиотека для масштабируемой встроенной аналитики. –Параллельная математическая, статистическая обработка –Машинное обучение –Структурированные и неструктурированные данные Миссия MADlib: развитие массовых навыков параллельной масштабируемой аналитики Больших Данных

31© Copyright 2012 EMC Corporation. All rights reserved. MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики

32© Copyright 2012 EMC Corporation. All rights reserved. Гибкая аналитика это … Структурированные и неструктурированные данные, Анализ Петабайт текущих данных, Горизонтальная масштабируемость Самообслуживание, Гибкость, Прозрачность, Коллаборация в реальном времени Analytic Productivity Platform Agile Process & Tools Analytics Engines Analytic Engines Открытая библиотека встраиваемых функций для скоростной параллельной обработки Данных

33© Copyright 2012 EMC Corporation. All rights reserved. На основе ПО EMC Greenplum Структурированные и неструктурированные данные, Анализ Петабайт текущих данных, Горизонтальная масштабируемость Самообслуживание, Гибкость, Прозрачность, Коллаборация в реальном времени Открытая библиотека встраиваемых функций для скоростной параллельной обработки Данных С

34© Copyright 2012 EMC Corporation. All rights reserved. ИТОГИ Использование СПО для Больших Данных это не только Большая Выгода, но и риск Чтобы снизить риск, нужно выбрать оптимальную платформу –Архитектурная надежность –Параллельная обработка –Масштабируемость –Возможность поддержки корпоративного класса –Возможность предварительно протестировать EMC предлагает Open Source сообществу: –Greenplum – СУБД и платформа для Больших Данных –Hadoop – платформу для неструктурированных Данных –Chorus – платформа для коллаборации аналитиков –MADLib - набор встроенных аналитических функций