BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин.

Презентация:



Advertisements
Похожие презентации
Анализ больших объемов данных. BaseGroup Labs Обработка больших объемов данных Во многих компаниях, особенно в розничных торговых сетях, аккумулируется.
Advertisements

ВВЕДЕНИЕ В BIG DATA Воробьев Даниил. ПЛАН ПРЕЗЕНТАЦИИ 1. Что такое Big Data 2. Принципы Big Data 3. Задачи решаемые в Big Data 4.Big Data со стороны IT.
Big Data пришли в Россию Объем данных в компаниях.
Deductor в банковской аналитике. BaseGroup Labs Банковская аналитика Банковская аналитика охватывает большой спектр вопросов от консолидации и визуализации.
Deductor – аналитическая платформа. BaseGroup Labs Назначение системы Deductor 5 является платформой, ориентированной на решение задач анализа любых структурированных.
8 (800) www.softlinegroup.com | Бизнес-аналитика (BI)
Разработка системы статистического анализа сообщений в социальных сетях с применением модели распределенных вычислений MapReduce Соискатель - Игнатенко.
Какие группы (например по демографическому признаку, или по уровню доходов, или по социальному статусу) более чувствительны к изменению.
Deductor 5 – эволюция платформы. BaseGroup Labs Причины изменений Deductor изменялся под влиянием требований, возникающих при его применения в реальных.
IdleCrawler – современный инструмент Интернет-маркетинга.
Тема 6. Использование экономических информационных систем Роль и место специалиста экономического профиля на всех стадиях жизненного цикла создания, развития.
Какова структура бизнес плана? Что такое резюме проекта? Описание бизнеса и отрасли. Маркетинговый план.
BigData изнутри: технологии и алгоритмы Александр Сербул руководитель направления, разработчик Партнерская конференция «1С-Битрикс»
Восьмая независимая научно-практическая конференция «Разработка ПО 2012» ноября, Москва АНАЛИТИЧЕСКИЙ МОДУЛЬ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ УПРАВЛЕНИЯ.
Графические способы представления информации Кластеры Автор презентации: Лебедева М. Б.
Масштабируемость Интернет-ресурсов Игорь Лобанов Центр Финансовых Технологий.
Этап (годы) Концепция использования информации Вид ИС Цель использования Бумажный поток расчетных документов ИС обработки расчетных документов.
Работу выполнила студентка гр. 9 Бд 111 Евженко Дарья.
Маркетинг банковских продуктов и услуг. BaseGroup Labs Вектор развития По мере насыщения финансового рынка, борьба за каждого клиента становится более.
Тема урока: « Информационные системы. Классификация информационных систем »
Транксрипт:

BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин

Что же такое BIG DATA? Big Data это наборы данных такого объема, что традиционные инструменты не способны осуществлять их захват, управление и обработку за приемлемое для практики время. Технология Big Data предоставляет услуги, помогающие раскрыть коммерческий потенциал мега массивов данных за счет поиска ценных закономерностей и фактов путем объединения и анализа больших объемов данных. В качестве определяющих характеристик для больших данных выделяют «три V»: 2

3 Volume Variety Velocity Volume Реально большие объемы данных в физическом смысле Variety Слабо структурированные и разнородные данные Velocity Необходимость высокой скорости обработки данных 1Gb, 1Tb, 1Pb, 1EXb, 1Zb DB, XML, Logs, Texts, Video, Audio

4 Интернет и мобильные технологии Twitter175 млн твит сообщений в день Facebook 300 млн фото загружаемых ежедневно Google 24PB ежедневно AT&T передает 30Pb в день Walmart более 1 млн продаж в час Объем данных, переданных/полученных на мобильные устройства, 1,3 экзабайт

5 Основные технологии анализа в BigData MapReduce - это фреймворк для вычисления некоторых наборов распределенных задач с использованием большого количества компьютеров (называемых «нодами»), образующих кластер, разработанный компанией Google. Hadoop - набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. NoSql - ряд подходов, направленных на реализацию хранилищ баз данных, имеющих существенные отличия от моделей, используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL. Применяется к базам данных, в которых делается попытка решить проблемы масштабируемости и доступности за счёт атомарности и согласованности данных

6 Методы анализа используемые в BigData Уникальность подхода больших данных заключается в агрегировании огромного объема неструктурированной информации из разных источников в одном месте. Классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным) Кластерный анализ Регрессионный анализ Рекомендательные системы Искусственные нейронные сети, в том числе генетические алгоритмы;

Производительность при обработке больших объемов данных можно повысить различными способами: Оборудование: многопроцессорные системы, ОЗУ большой емкости, RAID-массивы... Базы данных: «тяжелые» СУБД, разбиение на разделы, оптимальное индексирование... Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей... Исходная информация: репрезентативные выборки, сегментирование данных, группировка... Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели... Способы повышения производительности 7

Комбинирование моделей Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл. Сложная модель – низкая производительность Простая модель – средняя производительность «Жесткие правила» – высокая производительность Результат аналитической обработки 8

Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов. Параллельная обработка Модель 1 Модель 2 Модель 3 Результат аналитической обработки Исходные данные 1 сегмент 2 сегмент 3 сегмент 9

Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству. Репрезентативные выборки Исходные данные Репрезентативная выборка Модель Построение модели Применение модели Результат 10

1 Самые продвинутые отрасли BigData Маркетинг Сегментация рынка Моделирование приобретения и оттока клиентов Рекомендательные системы Анализ соц.медиа Финансы Медицина 0202 Детектирование аномального поведения Анализ кредитных рисков Страховое моделирование Генетический анализ Анализ клинических испытаний Экспертные системы

1212 Спасибо за внимание!