Введение в аналитику больших данных Онлайн-курс
Цель и содержание курса Цель: ориентирование в области технологий и методологий анализа больших данных Модули: 1.Введение в большие данные 2.Введение в Data Mining 3.Основы языка R 4.Инструменты Data Mining 5.Обзор технологий хранения больших данных 2
Введение в аналитику больших данных Лекция 1 к.ф.-м.н. Павловский Евгений Николаевич
В лекции будут Предпосылки формирования тренда больших данных Основные вызовы больших данных (4V) Определение термина "большие данные" Базовое представление о Map Reduce и Hadoop Представление о работе аналитика В результате изучения лекции Вы получите: понимание вызовов 4V больших данных, их взаимосвязь понимание условий возникновения Map Reduce и о его реализации Hadoop представление о факторах возникновения тренда больших данных. 4
Что такое «Большие данные»? Взгляды: Первый Инженерный Маркетинговый Научный 5
Первый взгляд на большие данные 6 * полностью карту можно посмотреть здесь:
Инженерный взгляд хранилища системы хранения данных облака EMC оборот Oracle IBM Amazon один админ на виртуальных Cloudera хранить уже дорого зачем столько собираем? кибербезопасность передача данных, политики, контроль как обрабатывать? контуры данных контроль за копированием права доступа утечки шифрование/дешифрование потоки данных коммуникации человек-человек человек-компьютер-человек человек-компьютер компьютер-человек (напоминалки, автодозвон ) компьютер-компьютер пропускная способность ограничивающий фактор жизненный цикл данных создание (в т.ч. автоматическое) обработка анализ систематизация озарения визуализация отчёты уничтожение захоронения, как ядерные отходы хранить дорого а что хранить, что удалять? вычисления на узлах, где данные собраны готовые технологии обработки Google FS Hadoop MapReduce
8
Предпосылки формирования тренда Распространение сенсоров Увеличение пропускной способности сетей Развитие беспроводных сетей Развитие технологий хранения данных (удешевление) 9
Предпосылки формирования тренда 10 * startups.htmlhttp://strata.oreilly.com/2011/08/building-data- startups.html
Предпосылки формирования тренда: публикации 2008, Nature: «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», Клиффорд Линч. Аналогия с «большой нефтью», «большой рудой». 2011, McKinsey: «Big data: The next frontier for innovation, competition, and productivity». Аналитический отчёт. 11