BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин
Что же такое BIG DATA? Big Data это наборы данных такого объема, что традиционные инструменты не способны осуществлять их захват, управление и обработку за приемлемое для практики время. Технология Big Data предоставляет услуги, помогающие раскрыть коммерческий потенциал мега массивов данных за счет поиска ценных закономерностей и фактов путем объединения и анализа больших объемов данных. В качестве определяющих характеристик для больших данных выделяют «три V»: 2
3 Volume Variety Velocity Volume Реально большие объемы данных в физическом смысле Variety Слабо структурированные и разнородные данные Velocity Необходимость высокой скорости обработки данных 1Gb, 1Tb, 1Pb, 1EXb, 1Zb DB, XML, Logs, Texts, Video, Audio
4 Интернет и мобильные технологии Twitter175 млн твит сообщений в день Facebook 300 млн фото загружаемых ежедневно Google 24PB ежедневно AT&T передает 30Pb в день Walmart более 1 млн продаж в час Объем данных, переданных/полученных на мобильные устройства, 1,3 экзабайт
5 Основные технологии анализа в BigData MapReduce - это фреймворк для вычисления некоторых наборов распределенных задач с использованием большого количества компьютеров (называемых «нодами»), образующих кластер, разработанный компанией Google. Hadoop - набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. NoSql - ряд подходов, направленных на реализацию хранилищ баз данных, имеющих существенные отличия от моделей, используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL. Применяется к базам данных, в которых делается попытка решить проблемы масштабируемости и доступности за счёт атомарности и согласованности данных
6 Методы анализа используемые в BigData Уникальность подхода больших данных заключается в агрегировании огромного объема неструктурированной информации из разных источников в одном месте. Классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным) Кластерный анализ Регрессионный анализ Рекомендательные системы Искусственные нейронные сети, в том числе генетические алгоритмы;
Производительность при обработке больших объемов данных можно повысить различными способами: Оборудование: многопроцессорные системы, ОЗУ большой емкости, RAID-массивы... Базы данных: «тяжелые» СУБД, разбиение на разделы, оптимальное индексирование... Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей... Исходная информация: репрезентативные выборки, сегментирование данных, группировка... Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели... Способы повышения производительности 7
Комбинирование моделей Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл. Сложная модель – низкая производительность Простая модель – средняя производительность «Жесткие правила» – высокая производительность Результат аналитической обработки 8
Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов. Параллельная обработка Модель 1 Модель 2 Модель 3 Результат аналитической обработки Исходные данные 1 сегмент 2 сегмент 3 сегмент 9
Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству. Репрезентативные выборки Исходные данные Репрезентативная выборка Модель Построение модели Применение модели Результат 10
1 Самые продвинутые отрасли BigData Маркетинг Сегментация рынка Моделирование приобретения и оттока клиентов Рекомендательные системы Анализ соц.медиа Финансы Медицина 0202 Детектирование аномального поведения Анализ кредитных рисков Страховое моделирование Генетический анализ Анализ клинических испытаний Экспертные системы
1212 Спасибо за внимание!