ВВЕДЕНИЕ В BIG DATA Воробьев Даниил
ПЛАН ПРЕЗЕНТАЦИИ 1. Что такое Big Data 2. Принципы Big Data 3. Задачи решаемые в Big Data 4. Big Data со стороны IT 5. Big Data со стороны статистика 6. Локальный пример использования методов Big Data 7. Заключение
ЧТО ТАКОЕ BIG DATA Динамика запросов по Big Data
Big Data – это когда данных больше, чем 100 Гб (500 Гб, 1 ТБ ) · Big Data – это такие данные, которые невозможно обрабатывать в Excel · Big Data – это такие данные, которые невозможно обработать на одном компьютере · В ig Data – это вообще любые данные. · Big Data не существует, ее придумали маркетологи ЧТО ТАКОЕ BIG DATA
ОПРЕДЕЛЕНИЕ Большие данные ( англ. big data) серия подходов, инструментов и методов обработки структурированных неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.Большие данные ( англ. big data) серия подходов, инструментов и методов обработки структурированных неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.
ПРИНЦИПЫ BIG DATA 1. Горизонтальная масштабируемость 2. Отказоустойчивость 3. Локальность данных
ЗАДАЧИ BIG DATA 1. Хранение и управление 1. Хранение и управление Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных. 2. Неструктурированная информация 2. Неструктурированная информация Большинство всех данных Big Data являются неструктурированными. Т. е. как можно организовать текст, видео, изображения, и т. д.? 3. Анализ Big Data 3. Анализ Big Data Как анализировать неструктурированную информацию ? Как на основе Big Data составлять простые отчеты, строить и внедрять углубленные прогностические модели ? IT Статистика
BIG DATA – ВЗГЛЯД СО СТОРОНЫ IT: MAPREDUCE И HADOOP Map-Reduce Map-Reduce
МЕТОДЫ АНАЛИЗА ИСПОЛЬЗУЕМЫЕ В BIG DATA Классификация Классификация Кластерный анализ Кластерный анализ Когнитивная графика и визуализация Когнитивная графика и визуализация Регрессионный анализ ( иногда )Регрессионный анализ ( иногда ) Рекомендательные системы ( нечеткая логика, системная динамика )Рекомендательные системы ( нечеткая логика, системная динамика ) Нейронные сети ( машинное обучение )Нейронные сети ( машинное обучение ) Сравнение выборок (A/B statistic)Сравнение выборок (A/B statistic)
нормы качества Природа неоднородности качества металлопродукции состав плавка разливка нагрев ковка термическая слитка обработка траектории процессов Пространство управляющих параметров ЛОКАЛЬНЫЙ ПРИМЕР ИСПОЛЬЗОВАНИЯ BIG DATA БЕЗ IT СОСТАВЛЯЮЩЕЙ
от 3,12 % до 3,45 % от 3,23 % до 3,45 % Содержание никеля в интервале: С ужение поля допуска управляющих параметров для повышения качества стали 38ХН3МФА-Ш (Управление разбросом ударной вязкости)
от 0,004 % до 0,01 % от 0,004 % до 0,006 % Содержание серы в интервале: С ужение поля допуска управляющих параметров для повышения качества стали 38ХН3МФА-Ш (Управление разбросом ударной вязкости)
ПОДГОТОВКА ДАННЫХ ДЛЯ АНАЛИЗА – MAPREDUCE ВРУЧНУЮ
П ОИСК ОБЛАСТЕЙ С ДОМИНИРУЮЩИМ ТИПОМ ЗАВИСИМОСТЕЙ
ИСПОЛЬЗОВАНИЕ КЛАСТЕРНОГО АНАЛИЗА ДЛЯ ГРУППИРОВКИ ТРАЕКТОРИЙ
18 Фрагмент траектории 1 Фрагмент траектории 2 Параметр МинМах МинМах T 1-ой зоны, °C T 2-ой зоны, °C T 3-ой зоны, °C T 4-ой зоны, °C Время подогрева, час 9,411,34,358,4 Время в зонах с 2 по 4, час 8,4158,29 T начала ковки, °C T конца ковки, °C Температура в ковше, °C Массовая доля Mn, % 0,150,20,250,3 Фрагмент траектории 1 Фрагмент траектории 2 Параметр МинМах МинМах T 1-ой зоны, °C T 2-ой зоны, °C T 3-ой зоны, °C T 4-ой зоны, °C Время подогрева, час 7,415,33,3511 Время в зонах с 2 по 4, час 7, T начала ковки, °C T конца ковки, °C Температура в ковше, °C Массовая доля Mn, % 0,150,20,250,3 Использование методов когнитивной графики для достижения предельного уровня качества металла
Выбор конечного фрагмента траектории – a/b методы
Результат работы алгоритмов: Ф рагмент спектра траекторий технологического процесса производства поковок из стали 38ХН3МФА-Ш
ЗАКЛЮЧЕНИЕ 1. Big data не имеет четкого определения и границ 2. Big data это две стороны: IT и Статистика 3. Для Big data не всегда нужны специальные инструменты 4. Big data это адаптация использования классических методов с большими массивами данных
СПАСИБО ЗА ВНИМАНИЕ