Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 7 лет назад пользователемКонстантин Усатов
1 BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин
2 Что же такое BIG DATA? Big Data это наборы данных такого объема, что традиционные инструменты не способны осуществлять их захват, управление и обработку за приемлемое для практики время. Технология Big Data предоставляет услуги, помогающие раскрыть коммерческий потенциал мега массивов данных за счет поиска ценных закономерностей и фактов путем объединения и анализа больших объемов данных. В качестве определяющих характеристик для больших данных выделяют «три V»: 2
3 3 Volume Variety Velocity Volume Реально большие объемы данных в физическом смысле Variety Слабо структурированные и разнородные данные Velocity Необходимость высокой скорости обработки данных 1Gb, 1Tb, 1Pb, 1EXb, 1Zb DB, XML, Logs, Texts, Video, Audio
4 4 Интернет и мобильные технологии Twitter175 млн твит сообщений в день Facebook 300 млн фото загружаемых ежедневно Google 24PB ежедневно AT&T передает 30Pb в день Walmart более 1 млн продаж в час Объем данных, переданных/полученных на мобильные устройства, 1,3 экзабайт
5 5 Основные технологии анализа в BigData MapReduce - это фреймворк для вычисления некоторых наборов распределенных задач с использованием большого количества компьютеров (называемых «нодами»), образующих кластер, разработанный компанией Google. Hadoop - набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. NoSql - ряд подходов, направленных на реализацию хранилищ баз данных, имеющих существенные отличия от моделей, используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL. Применяется к базам данных, в которых делается попытка решить проблемы масштабируемости и доступности за счёт атомарности и согласованности данных
6 6 Методы анализа используемые в BigData Уникальность подхода больших данных заключается в агрегировании огромного объема неструктурированной информации из разных источников в одном месте. Классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным) Кластерный анализ Регрессионный анализ Рекомендательные системы Искусственные нейронные сети, в том числе генетические алгоритмы;
7 Производительность при обработке больших объемов данных можно повысить различными способами: Оборудование: многопроцессорные системы, ОЗУ большой емкости, RAID-массивы... Базы данных: «тяжелые» СУБД, разбиение на разделы, оптимальное индексирование... Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей... Исходная информация: репрезентативные выборки, сегментирование данных, группировка... Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели... Способы повышения производительности 7
8 Комбинирование моделей Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл. Сложная модель – низкая производительность Простая модель – средняя производительность «Жесткие правила» – высокая производительность Результат аналитической обработки 8
9 Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов. Параллельная обработка Модель 1 Модель 2 Модель 3 Результат аналитической обработки Исходные данные 1 сегмент 2 сегмент 3 сегмент 9
10 Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству. Репрезентативные выборки Исходные данные Репрезентативная выборка Модель Построение модели Применение модели Результат 10
11 1 Самые продвинутые отрасли BigData Маркетинг Сегментация рынка Моделирование приобретения и оттока клиентов Рекомендательные системы Анализ соц.медиа Финансы Медицина 0202 Детектирование аномального поведения Анализ кредитных рисков Страховое моделирование Генетический анализ Анализ клинических испытаний Экспертные системы
12 1212 Спасибо за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.