Big Data пришли в Россию Объем данных в компаниях.

Презентация:



Advertisements
Похожие презентации
BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин.
Advertisements

СУБД Microsoft Access 2003 ЗНАКОМСТВО. Что такое Access? Access – Приложение, входящее в состав пакета Microsoft Office (разработано компанией Microsoft).
BigData изнутри: технологии и алгоритмы Александр Сербул руководитель направления, разработчик Партнерская конференция «1С-Битрикс»
Экономическая эффективность информационных технологий и их влияние на конкурентоспособность белорусских предприятий.
OpenGL и Direct3D сравнение стандартов Выполнил: Пенкин А. Группа И-204.
Deductor 5 – эволюция платформы. BaseGroup Labs Причины изменений Deductor изменялся под влиянием требований, возникающих при его применения в реальных.
Deductor – аналитическая платформа. BaseGroup Labs Назначение системы Deductor 5 является платформой, ориентированной на решение задач анализа любых структурированных.
Владимир Костюков, АлтГТУ АлтГТУ им И. И. Ползунова Распределенная система мониторинга и диспетчерезации процессов гетерогенной среды.
Hadoop Лекция 1. Введение в Hadoop и MapReduce. Что такое Hadoop Инфраструктура (framework) для параллельной обработки больших объемов данных (терабайты)
Организация распределенных прикладных систем. Попытаемся ответить на вопросы Как устроены распределенные прикладные системы? Каковы наиболее важные их.
Что можно сделать в BW за 1,5 месяца Business Warehouse и Business Intelligence в одном продукте.
Архитектура, возможности и методы использования платформы облачных вычислений Microsoft Windows Azure Лекция 3 Основные концепции и архитектура Microsoft.
Платформа eDocLib: Удобный архив. Быстрый поиск. Совместная работа и автоматизация типовых процедур.
Архитектура операционной системы. Ядро и вспомогательные модули операционной системы При функциональной декомпозиции ОС модули разделяются на две группы:
Распределенная система мониторинга и диспетчеризации процессов гетерогенной среды студент Костюков В.В., профессор к.ф-м.н Крючкова Е.Н., АлтГТУ / ПОВТ.
Поддержка пользовательских файловых хранилищ. Облачные хранилища. Максим Смирнов ведущий разработчик.
Лекция 5 Способы конструирования программ. Основы доказательства правильности.
Проекты ONLINE Ведение проектов в распределённом режиме, с участием заказчиков, исполнителей и соисполнителей Назначение.
Архитектура операционных систем. Архитектура ОС Состав модулей (компонент) ОС Структура связей между отдельными модулями ОС Принципы взаимодействия модулей.
Администрирование информационных систем Лекция 4. Система управления базами данных.
Транксрипт:

Big Data пришли в Россию

Объем данных в компаниях

ПроблемаBig Data

Кто использует Big Data

Роль в жизни человека Big Data

Big Data в отраслях

Статистка использования систем бизнес-аналитики по количеству проектов внедрений в РФ

Бесплатные базовые версии есть QlikView / Sense, Deductor (Loginom), Prognoz Platform. У Visary (Визари АИС, российская OLAP) бесплатной нет. Платформы QlikView / Sense входят в ТОП-3 мировых систем BI.

Возрастающая сложность: организации инвестируют в среднем в 7 различных инструментов ML Различия между инженерами по разработке данных и научными исследованиями также распространяются на инструменты, которые они используют, и их много. Подавляющее большинство (87%) инвестируют в различные виды данных и технологии, связанные с ИИ, чтобы осуществить процесс подготовки данных, интеллектуальнвую разведку данных и моделирование, в том числе: 85% Инструменты обработки данных, такие как Apache Spark, Hadoop / MapReduce и Google BigQuery 65% Инструменты потоковой передачи данных, такие как Flume, Kafka и Onyx 80% Средства машинного обучения, такие как Azure ML, Amazon ML и Spark MLlib 65% Инструменты глубокого обучения, такие как Google TensorFlow, Microsoft CNTK и Deeplearning4j (DL4J) В целом результаты опроса показывают, что организации используют в среднем семь различных средств машинного обучения и фреймворков глубокого обучения, создавая очень сложную среду, которая может замедлить эффективность организации. Чтобы получить ценность от ИИ, предприятия зависят от их существующих данных и способности итеративно выполнять ML на массивных наборах данных. Сегодняшние инженеры по данным и ученые-аналитики используют многочисленные, несвязанные инструменты для этого, включая зоопарк ML-фреймворков.

Spark также объединяет данные и ИИ с последовательным набором API для простой загрузки данных, обработки пакетных / потоковых данных, SQL Analytics, Stream Analytics и Machine Learning. Apache Spark был первым механизмом Unified Analytics для унификации данных (инженерии данных) с AI (искусственный интеллект). Apache Spark стал де-факто обработкой данных и движком AI на предприятиях сегодня благодаря своей быстроте, простоте использования и сложной аналитике. Spark упрощает подготовку данных для ИИ, объединяя данные в огромных масштабах в разных источниках - облачном хранилище, файловых системах, хранилищах значений ключей и шинах сообщений.

Apache Spark, мощный механизм обработки с открытым исходным кодом, построенный на скорости, простоте использования и сложной аналитике, стал стандартом де-факто для построения больших приложений данных Apache Spark (от англ. spark искра, вспышка) фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop. В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, Spark использует специализированные примитивы для рекуррентной обработки в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач [5], в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения [6].англ.фреймворкоткрытым исходным кодомнеструктурированныхHadoopMapReduce [5]машинного обучения [6] Проект предоставляет программные интерфейсы для языков Java, Scala, Python, R. Изначально написан на Scala, впоследствии добавлена существенная часть кода на Java для предоставления возможности написания программ непосредственно на Java. Состоит из ядра и нескольких расширений, таких как Spark SQL (позволяет выполнять SQL-запросы над данными), Spark Streaming (надстройка для обработки потоковых данных), Spark MLlib (набор библиотек машинного обучения), GraphX (предназначено для распределённой обработки графов). Может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра Hadoop, поддерживает несколько распределённых систем хранения HDFS, OpenStack Swift, NoSQL-СУБД Cassandra, Amazon S3. программные интерфейсыJavaScalaPythonRScalaSQLYARNHDFSOpenStack SwiftNoSQLCassandraAmazon S3

Apache Spark - это единый механизм анализа для обработки больших данных.