Интеллектуальный анализ данных Косяков Иван Архитектор (SQL-BI), Microsoft i-ivanko@microsoft.comi-ivanko@microsoft.com,

Презентация:



Advertisements
Похожие презентации
Сценарии интеллектуального анализа Поиск прибыльных клиентов Потребности клиентов Упреждение смены клиентов (анализ лояльности) Предсказание продаж.
Advertisements

Бизнес-аналитика Microsoft Косяков Иван Архитектор (SQL-BI), MTC Moscow.
Бизнес-аналитика Microsoft Косяков Иван Архитектор (SQL-BI), MTC Moscow
Введение в Business Intelligence или как делать репорты красиво и быстро. Александр Иванов
Афанасьева С.В.. Data Mining (Интеллектуальный анализ данных) - это технология выявления скрытых взаимосвязей внутри больших баз данных. Является службой.
Spellabs it.company Обзор применения Data Mining с учетом специфики HR-организаций Михаил Сумской системный архитектор.
Экспресс-обзор Microsoft BI 2010 Иван Косяков Архитектор (SQL/BI), MTC Moscow Лидер Russian Business Intelligence User Group (PASS Chapter)
9:30 Приветственный кофе 10:00 Ключевой доклад 11:45 Аппаратные решения HP для платформы Microsoft BI Аппаратные решения HP для платформы Microsoft BI.
PolyAnalyst PolyAnalyst Workplace PolyAnalyst. Аналитический инструментарий Моделирование Прогнозирование Кластеризация Классификация Текстовый анализ.
Премиум-версии: SQL Server 2008 R2 Parallel Data Warehouse SQL Server 2008 R2 Datacenter Основные версии: SQL Server 2008 R2 Enterprise SQL Server 2008.
ADO.NET Data Services Данила Корнев Developer Evangelist Microsoft Россия Установите Silverlight 1.0 для просмотра демонстрации:
Причины проблем с НСИ Нет единого источника правды, несоответствия справочников, несколько владельцев записи в справочнике Нет функции совместного управления.
Deductor в банковской аналитике. BaseGroup Labs Банковская аналитика Банковская аналитика охватывает большой спектр вопросов от консолидации и визуализации.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Data Mining – инструмент оптимизации работы с клиентами.
Microsoft SQL Server 2005 Analysis Services – мощная аналитическая платформа нового поколения Ирина Горбач Александ Бергер.
Deductor – аналитическая платформа. BaseGroup Labs Назначение системы Deductor 5 является платформой, ориентированной на решение задач анализа любых структурированных.
Deductor 5 – новые возможности. BaseGroup Labs Развитие системы Deductor активно применяется во многих проектах. Новый функционал, расширяющий возможности.
Визуализация и моделирование с использованием UML в Visual Studio 2010 Ultimate Евгений Чигиринский Microsoft.
Разработка RIA-приложений с помощью LightSwitch Эксперт по разработке Microsoft Россия Дмитрий Андреев.
Транксрипт:

Интеллектуальный анализ данных Косяков Иван Архитектор (SQL-BI), Microsoft

Содержание Обзор технологии Excel DM Add-ins Разработка в BIDS Ресурсы

Сценарии интеллектуального анализа Поиск прибыльных клиентов Потребности клиентов Упреждение смены клиентов (анализ лояльности) Предсказание продаж

Модель Процесс интеллектуального анализа DM Engine Тренировочные данные Предсказываемые данные Модель Данные с пред- сказаниями Модель

Интеллектуальный анализ данных с использованием Data Mining Add-ins Analysis Services Data Mining Add-ins Размещение Результаты

Закладка «Analyze» Простейший вариант Определение данных Выбор задания Получение результатов

Закладка «Data Mining» Итерационный процесс (CRISP) Подготовка данных Моделирование Измерение точности Использование модели

Analysis Services Server Server Модель Модель Алгоритм Алгоритм Источ- ник Серверная архитектура DM Excel / Visio / SSRS / ваше приложение OLE DB/ADOMD/XMLA/AMO Развер- тывание BIDSExcelVisioSSMSBIDSExcelVisioSSMS Данные

Алгоритмы интеллектуального анализа данных Decision Trees Association Rules Clustering Naïve Bayes Sequence Clustering Time Series Neural Nets Linear Regression Logistic Regression

Алгоритм дерева принятия решений (Decision Trees) Используйте для: Классификации: анализ рисков и перехода клиентов Регрессии: предсказание прибыли или дохода Анализа ассоциаций, основанного на предсказании нескольких переменных Строит одно дерево для каждого предсказываемого атрибута Быстрый

Упрощенный алгоритм Байеса (Microsoft Naïve Bayes) Используется для: Классификации Ассоциации с несколькими предсказываемыми атрибутами Предполагает, что все входные данные независимы Простой механизм классификации, основанный на вероятности выполнения условий Требует меньшего количества вычислений

Алгоритмы линейной и логистической регрессии Линейная регрессия Находит лучшую прямую через набор точек Логистическая регрессия Находит кривую путем применения логистического преобразования Используются для предсказательного анализа (определения отношений между числовыми атрибутами)

Алгоритм кластеризации (Clustering) Применим к: Сегментации: группировка клиентов, маркетинговая рассылка предложений Также: классификация и регрессия Обнаружение аномалий Дискретные и непрерывные атрибуты Замечания: Атрибуты «Predict Only» нельзя использовать

Кластеризация Обнаружение аномалий Мужчина Женщина Сын Дочь Родитель Возраст

Применим к: классификации регрессии Хорош для нахождения сложных взаимосвязей между атрибутами Но сложно интерпретировать результаты Алгоритм нейронной сети (Neural Network) AgeEducationSexIncome Input Layer Hidden Layers Output Layer Loyalty

Алгоритм взаимосвязей (Association Rules) Используйте для анализа: Анализа рыночной корзины Кросс-продаж и рекомендаций Находит часто встречающиеся наборы элементов и связей Чувствителен к параметрам

Кластеризация последовательностей (Sequence Clustering) Анализ: Поведения клиентов Шаблонов транзакций Потока переходов по ссылкам Сегментации клиентов Предсказания последовательностей Смешение технологий кластеризации и анализа последовательностей Группирует субъекты по признакам включая последовательности действий

Алгоритм временных рядов (Time Series) Варианты использования: Прогноз продаж Предсказания остатков Предсказание переходов в Web Расчет стоимости акций Технология регрессионных деревьев для описания и предсказания непрерывных столбцов Дерево решений с авто- регрессией

Time Series Sequence Clustering Neural Nets Naïve Bayes Logistic Regression Linear Regression Decision Trees Clustering Association Rules Классификация Расчеты Сегментация Ассоциация Прогноз Анализ текста Комплексный анализ данных

Множество подходов Эксперты баз данных и знающие SQL: DMX (аналогичен T-SQL) Импорт/экспорт с использованием PMML (Predictive Model Markup Language) Все: Business Intelligence Development Studio (BIDS) Работает в среде Visual Studio (включено!) Не требует кодирования Excel/Visio 2007 вместе с Data Mining Add-Ins The Data Mining tab – все возможности Table Analysis tab – меньше, но проще

Data Mining Extensions (DMX) «T-SQL» для Data Mining Просто, как написание скриптов Два типа запросов: Определение данных CREATE, ALTER, EXPORT, IMPORT, DROP Манипуляции с данными INSERT INTO, SELECT, DELETE

DMX аналогичен T-SQL CREATE MINING MODEL CreditRisk (CustID LONG KEY, Gender TEXT DISCRETE, Income LONG CONTINUOUS, Profession TEXT DISCRETE, Risk TEXT DISCRETE PREDICT) USING Microsoft_Decision_Trees CREATE MINING MODEL CreditRisk (CustID LONG KEY, Gender TEXT DISCRETE, Income LONG CONTINUOUS, Profession TEXT DISCRETE, Risk TEXT DISCRETE PREDICT) USING Microsoft_Decision_Trees INSERT INTO CreditRisk (CustId, Gender, Income, Profession, Risk) Select CustomerID, Gender, Income, Profession,Risk From Customers INSERT INTO CreditRisk (CustId, Gender, Income, Profession, Risk) Select CustomerID, Gender, Income, Profession,Risk From Customers Select NewCustomers.CustomerID, CreditRisk.Risk, PredictProbability(CreditRisk.Risk) FROM CreditRisk PREDICTION JOIN NewCustomers ON CreditRisk.Gender=NewCustomer.Gender AND CreditRisk.Income=NewCustomer.Income AND CreditRisk.Profession=NewCustomer.Profession Select NewCustomers.CustomerID, CreditRisk.Risk, PredictProbability(CreditRisk.Risk) FROM CreditRisk PREDICTION JOIN NewCustomers ON CreditRisk.Gender=NewCustomer.Gender AND CreditRisk.Income=NewCustomer.Income AND CreditRisk.Profession=NewCustomer.Profession

CREATE MINING MODEL (создание модели) CREATE MINING MODEL ( ) USING [( )] [WITH DRILLTHROUGH]

CREATE MINING MODEL Пример CREATE MINING MODEL MyModel ( [CustID] LONG KEY, [Gender] TEXT DISCRETE, [Marital Status] TEXT DISCRETE, [Education] TEXT DISCRETE, [Home Ownership] TEXT DISCRETE PREDICT, [Age] LONG CONTINUOUS, [Income] DOUBLE CONTINUOUS ) USING Microsoft_Decision_Trees

INSERT INTO (обучение модели) INSERT INTO [MINING MODEL | MINING STRUCTURE] [( )]

PREDICTION JOIN (предсказание) SELECT [TOP ] FROM [ [NATURAL] PREDICTION JOIN AS [ ON ] [ WHERE ] [ ORDER BY ] ]

Программные интерфейсы Интеллектуальный анализ данных Интерфейсы Data Mining Analysis Server OLAP Data Mining Server ADOMD.NET.NET Stored Procedures Алгоритмы Microsoft Алгоритмы разработчииков WAN XMLA Over TCP/IP OLE DB ADO ADOMD.NET XMLA Over HTTP Любая платформа, любое устройство C++ App VB App.NET App Any App AMO

Что нового в SQL Server 2008? Расширения Data Mining Расширения в Mining Structures: Проще готовить и тестировать модели Модели позволяют осуществлять перекрестную проверку (cross-validation) Фильтрация моделей Обновления алгоритмов: Улучшен алгоритм временных рядов Анализ «что-если?» Ряд других улучшений

Ресурсы Многомерные данные Официальный сайт Microsoft SQL Server Сайт Microsoft BI Books Online – Многомерные данные ru/library/bb aspx ru/library/bb aspx Технические ресурсы:

Webcasts Интеллектуальный анализ данных Data Mining and BI for Enterprises Microsoft SQL Server 2005: Data Mining default.mspx default.mspx Microsoft SQL Server 2008: Data Mining /data-mining.aspx /data-mining.aspx

Ресурсы Интеллектуальный анализ данных Демонстрации и новости: AdventureWorksDW: Книга авторов Jamie MacLennan and ZhaoHui Tang Data Mining with SQL Server 2005, Wiley 2005, ISBN Также: blogs.msdn.com/jamiemac forums.microsoft.com/MSDN/ShowForum.aspx?ForumID=81& SiteID=1 forums.microsoft.com/MSDN/ShowForum.aspx?ForumID=81& SiteID=1 SQL Server Books Online aspx

Сообщества, блоги Russian Business Intelligence User Group Технологии BI на форуме sqlclub.ru Блог Ивана Косякова про Microsoft BI