ВВЕДЕНИЕ В BIG DATA Воробьев Даниил. ПЛАН ПРЕЗЕНТАЦИИ 1. Что такое Big Data 2. Принципы Big Data 3. Задачи решаемые в Big Data 4.Big Data со стороны IT.

Презентация:



Advertisements
Похожие презентации
КОНСТРУКЦИОННЫЕ МАТЕРИАЛЫ – ПРОБЛЕМЫ РАЗРАБОТКИ И ПОВЫШЕНИЯ КАЧЕСТВА Кудря А.В., профессор, д.т.н. Национальный исследовательский технологический университет.
Advertisements

BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин.
Презентация к уроку по информатике и икт (10 класс) по теме: Информационные системы. Классификация информационных систем.
Технология построения урока на основе ИКТ (теоретический семинар)
Этап (годы) Концепция использования информации Вид ИС Цель использования Бумажный поток расчетных документов ИС обработки расчетных документов.
Предмет изучения кибернетики как теории управления.
Лекция по предмету интеллектуальные информационные системы Искусственный интеллект в обработке изображений и распознавании образов на них Автор: к.т.н.
Электронная таблица. Excel-это программа для автоматизации расчетов, построение графиков, для табличных документов, для создания базы данных.
В широком смысле информационной системой можно назвать любую организационную структуру, задача которой состоит в работе с информацией, например, библиотеку,
Тема урока: «Основные понятия базы данных. Создание базы данных СУБД MS Access» Преподаватель: Тулебаева Галия Амантаевна
ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПК И ЕГО КЛАССИФИКАЦИЯ.. Понятие программного обеспечения. Классификация ПО: прикладные программы: графические редакторы; системы.
Проблемы статистического оценивания данных мониторинга в задачах безопасности компьютерных сетей. А.А.Макаров, Г.И.Симонова, Н.Л.Ковба, А.Полищук НИИ механики.
ГОРОДСКОЙ МЕТОДИЧЕСКИЙ ЦЕНТР mosmetod.ru Примерная программа учебного предмета «Информатика»
Михайлов А.В., Лукманов А.Р., Хабибуллин И.И. Студенты группы 9С Специальность: Сети связи и системы коммутации (210723) Компьютерное зрение Презентация.
Компьютер и информация Компьютер и информация Человек и информация Человек и информация Задания Алгоритмы и исполнители Алгоритмы и исполнители Компьютер.
Формирование ИКТ- компетентности в условиях ФГОС.
Анализ больших объемов данных. BaseGroup Labs Обработка больших объемов данных Во многих компаниях, особенно в розничных торговых сетях, аккумулируется.
ТРЕХЭТАПНАЯ ОБРАБОТКА ЦИФРОВЫХ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ЭВОЛЮЦИОНИРУЮЩИХ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ* Цой Ю.Р., Спицын В.Г. Кафедра вычислительной.
Особенности Data Mining проектов. BaseGroup Labs Отличие от стандартного проекта В большинстве случаев Data Mining проекты не оправдывают ожидания клиентов.
Г. Чебоксары, 2011 г. Чувашский республиканский институт образования Кафедра новых информационных технологий КУРСОВАЯ РАБОТА «Противоречия содержания ФГОС.
Транксрипт:

ВВЕДЕНИЕ В BIG DATA Воробьев Даниил

ПЛАН ПРЕЗЕНТАЦИИ 1. Что такое Big Data 2. Принципы Big Data 3. Задачи решаемые в Big Data 4. Big Data со стороны IT 5. Big Data со стороны статистика 6. Локальный пример использования методов Big Data 7. Заключение

ЧТО ТАКОЕ BIG DATA Динамика запросов по Big Data

Big Data – это когда данных больше, чем 100 Гб (500 Гб, 1 ТБ ) · Big Data – это такие данные, которые невозможно обрабатывать в Excel · Big Data – это такие данные, которые невозможно обработать на одном компьютере · В ig Data – это вообще любые данные. · Big Data не существует, ее придумали маркетологи ЧТО ТАКОЕ BIG DATA

ОПРЕДЕЛЕНИЕ Большие данные ( англ. big data) серия подходов, инструментов и методов обработки структурированных неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.Большие данные ( англ. big data) серия подходов, инструментов и методов обработки структурированных неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

ПРИНЦИПЫ BIG DATA 1. Горизонтальная масштабируемость 2. Отказоустойчивость 3. Локальность данных

ЗАДАЧИ BIG DATA 1. Хранение и управление 1. Хранение и управление Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных. 2. Неструктурированная информация 2. Неструктурированная информация Большинство всех данных Big Data являются неструктурированными. Т. е. как можно организовать текст, видео, изображения, и т. д.? 3. Анализ Big Data 3. Анализ Big Data Как анализировать неструктурированную информацию ? Как на основе Big Data составлять простые отчеты, строить и внедрять углубленные прогностические модели ? IT Статистика

BIG DATA – ВЗГЛЯД СО СТОРОНЫ IT: MAPREDUCE И HADOOP Map-Reduce Map-Reduce

МЕТОДЫ АНАЛИЗА ИСПОЛЬЗУЕМЫЕ В BIG DATA Классификация Классификация Кластерный анализ Кластерный анализ Когнитивная графика и визуализация Когнитивная графика и визуализация Регрессионный анализ ( иногда )Регрессионный анализ ( иногда ) Рекомендательные системы ( нечеткая логика, системная динамика )Рекомендательные системы ( нечеткая логика, системная динамика ) Нейронные сети ( машинное обучение )Нейронные сети ( машинное обучение ) Сравнение выборок (A/B statistic)Сравнение выборок (A/B statistic)

нормы качества Природа неоднородности качества металлопродукции состав плавка разливка нагрев ковка термическая слитка обработка траектории процессов Пространство управляющих параметров ЛОКАЛЬНЫЙ ПРИМЕР ИСПОЛЬЗОВАНИЯ BIG DATA БЕЗ IT СОСТАВЛЯЮЩЕЙ

от 3,12 % до 3,45 % от 3,23 % до 3,45 % Содержание никеля в интервале: С ужение поля допуска управляющих параметров для повышения качества стали 38ХН3МФА-Ш (Управление разбросом ударной вязкости)

от 0,004 % до 0,01 % от 0,004 % до 0,006 % Содержание серы в интервале: С ужение поля допуска управляющих параметров для повышения качества стали 38ХН3МФА-Ш (Управление разбросом ударной вязкости)

ПОДГОТОВКА ДАННЫХ ДЛЯ АНАЛИЗА – MAPREDUCE ВРУЧНУЮ

П ОИСК ОБЛАСТЕЙ С ДОМИНИРУЮЩИМ ТИПОМ ЗАВИСИМОСТЕЙ

ИСПОЛЬЗОВАНИЕ КЛАСТЕРНОГО АНАЛИЗА ДЛЯ ГРУППИРОВКИ ТРАЕКТОРИЙ

18 Фрагмент траектории 1 Фрагмент траектории 2 Параметр МинМах МинМах T 1-ой зоны, °C T 2-ой зоны, °C T 3-ой зоны, °C T 4-ой зоны, °C Время подогрева, час 9,411,34,358,4 Время в зонах с 2 по 4, час 8,4158,29 T начала ковки, °C T конца ковки, °C Температура в ковше, °C Массовая доля Mn, % 0,150,20,250,3 Фрагмент траектории 1 Фрагмент траектории 2 Параметр МинМах МинМах T 1-ой зоны, °C T 2-ой зоны, °C T 3-ой зоны, °C T 4-ой зоны, °C Время подогрева, час 7,415,33,3511 Время в зонах с 2 по 4, час 7, T начала ковки, °C T конца ковки, °C Температура в ковше, °C Массовая доля Mn, % 0,150,20,250,3 Использование методов когнитивной графики для достижения предельного уровня качества металла

Выбор конечного фрагмента траектории – a/b методы

Результат работы алгоритмов: Ф рагмент спектра траекторий технологического процесса производства поковок из стали 38ХН3МФА-Ш

ЗАКЛЮЧЕНИЕ 1. Big data не имеет четкого определения и границ 2. Big data это две стороны: IT и Статистика 3. Для Big data не всегда нужны специальные инструменты 4. Big data это адаптация использования классических методов с большими массивами данных

СПАСИБО ЗА ВНИМАНИЕ