Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемАлексей Челпанов
1 Анализ больших объемов данных
2 BaseGroup Labs Обработка больших объемов данных Во многих компаниях, особенно в розничных торговых сетях, аккумулируется огромное количество данных. Для их обработки необходимо использовать специальные механизмы. Не существует универсальных способов анализа или алгоритмов, пригодных для любых случаев и любых объемов информации. Методы анализа данных существенно отличаются друг от друга по производительности, качеству результатов, удобству применения, требованиям к данным... Deductor включает широкий спектр механизмов, позволяющих добиваться хорошего качества и высокой производительности при обработке больших объемов данных.
3 BaseGroup Labs Способы повышения производительности Производительность при обработке больших объемов данных можно повысить различными способами: Оборудование: многопроцессорные системы, ОЗУ большой емкости, RAID-массивы... Базы данных: «тяжелые» СУБД, разбиение на разделы, оптимальное индексирование... Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей... Исходная информация: репрезентативные выборки, сегментирование данных, группировка... Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели...
4 BaseGroup Labs Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл. Сложная модель – низкая производительность Простая модель – средняя производительность Комбинирование моделей «Жесткие правила» – высокая производительность Результат аналитической обработки
5 BaseGroup Labs Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов. Параллельная обработка Модель 1 Модель 2 Модель 3 Результат аналитической обработки Исходные данные 1 сегмент 2 сегмент 3 сегмент
6 BaseGroup Labs Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству. Репрезентативные выборки Исходные данные Репрезентативная выборка Модель Построение модели Применение модели Результат
7 BaseGroup Labs BaseGroup Labs – профессиональный поставщик Data Warehouse, OLAP, KDD, Data Mining решений и инструментов. Web-сайт: Образование: edu.basegroup.ruedu.basegroup.ru
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.