Особенности Data Mining проектов
BaseGroup Labs Отличие от стандартного проекта В большинстве случаев Data Mining проекты не оправдывают ожидания клиентов потому, что они относятся к ним как к стандартным проектам. Определение. Проект это уникальная деятельность, имеющая начало и конец во времени, направленная на достижение заранее определённой цели, создание уникального продукта или услуги при заданных ограничениях по ресурсам и срокам, а также требованиям к качеству и допустимому уровню риска. Однако Data Mining проект – это вообще не проект, а научное исследование.
BaseGroup Labs Границы проекта Суть Data Mining – построение и применение моделей, а модель есть приближение, реального процесса, следовательно: Никакая модель не является финальной, всегда есть неучтенные факторы. Модель cо временем нужно перестраивать, т.к. меняются описываемые ей процессы. Некоторые процессы не поддаются моделированию, для них необходимо изобретать особые способы работы. Резюме: границы проекта точно описать невозможно, анализ – это периодически повторяющийся процесс.
BaseGroup Labs Гарантии качества результата Все модели предполагают, что данные удовлетворяют базовым требованиям: точности, достоверности, полноты… На практике в данных всегда присутствуют ошибки: опечатки, пропуски, аномалии, дубликаты… Именно плохое качество данных является одной из самых серьезных проблем любого Data Mining проекта. Применение методов очистки и предобработки данных позволяет частично решить эту проблему, но полностью ее не снимает. Резюме: результат зависит от качества данных, которое всегда является проблемой.
BaseGroup Labs Логика работы Если известны правила, формулы и закономерности, при помощи которых можно получить искомый результат, то в применении Data Mining нет необходимости. Data Mining – это поиск скрытых закономерностей. Следовательно, до начала исследования аналитик даже не догадывается о том, какие закономерности существуют, он может только предполагать их наличие. Резюме: аналитик предполагает, что закономерности существуют, но найти их можно только в результате исследования.
BaseGroup Labs Сравнение свойств проектов Data Mining – это исследование, и его целью является не получение результата с гарантированным качеством (что невозможно в принципе), а лучшей модели из возможных в данной ситуации. СвойствоСтандартный проект Data Mining проект Границы проекта Да, определяются заранее Нет, повторяющийся процесс Гарантии качества Да, возможныНет, зависит от качества данных Логика работы Известна и однозначна Нет, ищутся скрытые закономерности
BaseGroup Labs Рабочий цикл Data Mining Мониторинг качества Построение моделей Очистка данных Сбор данных Формирование гипотез Передача в эксплуатацию лучших моделей Проверка адекватности текущей модели Изначально закономерности неизвестны
BaseGroup Labs Требования к Data Mining системе Особенности Data Mining процесса определяют требования к программному обеспечению: Ориентация на аналитика: 95% времени – это работа аналитика, связанная с подбором моделей и анализом результатов Гибкость: необходимо подстраиваться под постоянные изменения требований Очистка данных: без нее результат будет гарантировано плохим Моделирование: для каждого класса задач нужны соответствующие алгоритмы Интеграция: необходим механизм быстрого переноса лучших моделей в рабочий процесс
BaseGroup Labs Поддержка и развитие Критически важными для процесса являются возможности развития и адаптации моделей. Для этого необходимо: Наличие аналитиков, способных самостоятельно контролировать процесс и развивать систему. Возможность понять логику анализа и при необходимости ее изменять. Реализация самообучающихся алгоритмов, способных перестраиваться при поступлении новых данных. Встроенные механизмы визуализации, позволяющие оценить качество результата и интерпретировать построенные модели.
BaseGroup Labs Deductor – аналитическая платформа Deductor реализует необходимый функционал и удовлетворяет всем требованиям к развитой Data Mining платформе: Ориентация на аналитиков Учебно-методическая поддержка Гибкое построение сценариев Реализация механизмов очистки Множество алгоритмов моделирования Интерпретация результатов анализа Интеграция с любым окружением.
BaseGroup Labs Data Mining Data Mining нетривиален, однако реальной альтернативы ему нет. В компаниях накопились такие объемы данных, что физически невозможно обработать их «ручными» методами. Из-за этого информация, представляющая огромную ценность, лежит мертвым грузом. Data Mining - это единственный на сегодня систематизированный способ увидеть варианты будущего, объективно их сравнивать и определить потенциальные последствия альтернативных решений.
BaseGroup Labs BaseGroup Labs – профессиональный поставщик Data Warehouse, OLAP, KDD, Data Mining решений и инструментов. Web-сайт: Образование: edu.basegroup.ruedu.basegroup.ru