Анализ больших объемов данных
BaseGroup Labs Обработка больших объемов данных Во многих компаниях, особенно в розничных торговых сетях, аккумулируется огромное количество данных. Для их обработки необходимо использовать специальные механизмы. Не существует универсальных способов анализа или алгоритмов, пригодных для любых случаев и любых объемов информации. Методы анализа данных существенно отличаются друг от друга по производительности, качеству результатов, удобству применения, требованиям к данным... Deductor включает широкий спектр механизмов, позволяющих добиваться хорошего качества и высокой производительности при обработке больших объемов данных.
BaseGroup Labs Способы повышения производительности Производительность при обработке больших объемов данных можно повысить различными способами: Оборудование: многопроцессорные системы, ОЗУ большой емкости, RAID-массивы... Базы данных: «тяжелые» СУБД, разбиение на разделы, оптимальное индексирование... Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей... Исходная информация: репрезентативные выборки, сегментирование данных, группировка... Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели...
BaseGroup Labs Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл. Сложная модель – низкая производительность Простая модель – средняя производительность Комбинирование моделей «Жесткие правила» – высокая производительность Результат аналитической обработки
BaseGroup Labs Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов. Параллельная обработка Модель 1 Модель 2 Модель 3 Результат аналитической обработки Исходные данные 1 сегмент 2 сегмент 3 сегмент
BaseGroup Labs Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству. Репрезентативные выборки Исходные данные Репрезентативная выборка Модель Построение модели Применение модели Результат
BaseGroup Labs BaseGroup Labs – профессиональный поставщик Data Warehouse, OLAP, KDD, Data Mining решений и инструментов. Web-сайт: Образование: edu.basegroup.ruedu.basegroup.ru