УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ ОРГАНИЗАЦИЙ DQS, MDS, SSIS, проект «Barcelona» Иван Косяков, Microsoft Голубицкий Евгений, Навикон Максим Гончаров, Microsoft
Содержание Введение Возможности MDS и DQS в SQL Server 2012 Методы выявления дублей и ошибок SSIS и совместное использование с DQS/MDS Проект «Barcelona» Заключение
v v Введение в EIM Иван Косяков Microsoft
Потребность в достоверных данных Увеличение эффективности Уменьшение затрат Увеличение доходов и прибыльности Уменьшение производительности Неудовлетворенность клиентов Несоответствие стандартам Уменьшение доходов и прибыльности Решения Некорректные и/или неполные данные Достоверные корректные данные Решения
Базовые компоненты аналитических решений Достоверные корректные данные Бизнес- пользователи Анализ данных Организация хранилищ данных Знания Управление
Постановка задачи Источники ХД ERP CRM HRMS Автоматизация загрузки данных из источников, управление загрузкой Автоматическая корректировка новых данных, управление правилами корректировки Сопоставление со справочной информацией, управление справочниками Анализ данных в различных источниках информации, отслеживание преобразований, управление изменениями
Компоненты Microsoft BI Бизнес-пользователи Достоверные данные Бизнес-аналитика Хранилища данных Знания Управление Microsoft Office Data Quality Services Master Data Services SQL Server Integration Services SQL Server Database Engine Fast Track Data Warehouse Parallel Data Warehouse SQL Server Analysis Services SQL Server Reporting Services SharePoint PowerPivot Power View Enterprise Information Management
v v Возможности MDS и DQS в SQL Server 2012 Голубицкий Евгений Руководитель проектов практики Интеграционных и НСИ решений
Проблемы Novartis Данные в различных форматах Разные названия продуктов и территорий Загрузка данных занимает много времени Ошибки во время преобразования данных 9
Система анализа и планирования в компании Novartis Вторичные продажиУправление скидками и прогнозамиКуб для оперативной аналитики
Архитектура решения для Novartis SSIS
Архитектура решения для Novartis SSAS
Роль MDS в ИТ инфраструктуре Novartis Наполнение справочниковНастройка справочниковДанные для аналитики 13
Неудобный интерфейс Отсутствует группировка сущностей Отсутствует модуль согласования Недостатки MDS 2008 R2
Интерфейс MDS 2008 R2
Интерфейс MDS
Быстрее 28 сек 11 сек MDS 2008 R2 MDS
Надстройка MDS 2012 для Excel 2010
Data Quality Service Массовая очистка данныхБаза знаний и мэппингПравила валидации
v v Демонстрация Data Quality Services
v v Алгоритмы определения дубликатов и ошибок в DQS Максим Гончаров, Microsoft
Выявление дубликатов Для выявления дубликатов мы задаем: Пороговое значение похожести записей Список столбцов, которые должны совпадать Список столбцов, которые мы анализируем на похожесть Весовые коэффициенту учета похожести каждого отдельного атрибута Алгоритм работает так: Сравниваются только те пары записей, у которых совпадают обязательные атрибуты Определяются степени похожести между парами атрибутов Определяется степень похожести пары записей усреднением степеней похожести пар атрибутов с весами Если степень похожести больше порога – сохраняем как дубль.
Выявление дубликатов Как DQS определяется степень похожести между строками? Популярные метрики: Hamming distance. Описывает «расстояние» между двумя строками одинаковой длины и является числом позиций в строках, в которых стоят разные значения. d H ( , ) = 2 Levenshtein distance. Минимальное число элементарных операций (вставка, удаление, замена одного символа), необходимые для приведения одной строки в другую. Иногда перестановка двух соседних символов считается также одной элементарной операцией. d L ("kitten", "sitting" is) = 3 kitten sitten (замена 's' на 'k') sitten sittin (замена 'i' на 'e') sittin sitting (добавление 'g' в конце) Jaccard index. Отношения числа одинаковых символов в двух строках к общему числу символов.
Выявление дубликатов Реализация в DQS: Levenshtein distance SELECT [internal_core].[CalculateEditDistanceScore](N'abc', N'acb', 0, 100, 1) 0,66 SELECT [internal_core].[CalculateEditDistanceScore](N'abc', N'acb', 0, 100, 0) 0,33
Выявление синтаксических ошибок Алгоритм «Анна Каренина» (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему): Если запись встречается часто, то скорее всего она правильно написана Если запись уникальна, но похожа на часто встречающуюся запись, то скорее всего она ошибочна.
v v Интеграционные проекты Integration Services + MDS/DQS, проект Barcelona Иван Косяков Microsoft
Большее удобство использовани я Улучшенное размещение, конфигурирован ие и управление SSIS Server Новая модель проекта для объединения пакетов и размещения (.ispac) Поддержка параметров (упрощение конфигурирования) Возможность использовать SSIS для диагностики работы SSIS Журналирование Отчетность Улучшения в SSIS 2012 Интерфейс Начальное обучение Продуктивность ETL-разработки Разделяемые менеджеры подсоединений Ключевые запросы пользователей Отмена операций (Undo) Новый формат пакетов Гибкий порядок авторства
Полностью интегрированное EIM-решение
v v Демонстрация Примеры EIM-пакетов в SSIS с использованием MDS/DQS
v v Проект «Barcelona» Иван Косяков Microsoft
Исследовать, связать и вывести поток данных SQL SSIS Плоский файл File, implied columnsPackages, data flows, connection managers, columns, etc. Servers, databases, tables, views, columns, sprocs, etc.
v v Демонстрация Исследование метаданных с помощью проекта Barcelona
Project Barcelona Архитектура API запросов к графу метаданных, аннотирования SQL IS Share Point Share Point Excel Сборщики сторонних разработчиков Сторонние интерфейсы и приложения для вертикальных решений Интерфейс администратора Интерфейс информационного эксперта Интерфейс DBA/IT Pro Интерфейс DBA/IT Pro API анализа собранных данных (crawler) Сервер индексирования Другие сборщики Microsoft
v v Заключение Иван Косяков Microsoft
Фазы процесса управления информацией Enterprise Information Management (EIM) Лидирующий инструмент ETL и интеграции данных Очистка и сопоставление данных, основанные на знаниях Обнаружение происхождения и связей между объектами Project Barcelona Integration Services Master Data Services Data Quality Services Интуитивное решение для создания и управления НСИ
Сценарий интегрированного управления данными Источники данных Очистить, сопоставить DQS Очистить, сопоставить DQS Согласовать MDS Согласовать MDS Сопоставить, дедуплицировать DQS Сопоставить, дедуплицировать DQS Извлечь SSIS Извлечь SSIS Опубликовать SSIS Опубликовать SSIS Обнаружить Barcelona Обнаружить Barcelona Инвентаризировать Barcelona Инвентаризировать Barcelona
Ресурсы Официальные ресурсы Русский сайт про SQL Server Microsoft BI на TechNet BI на Microsoft.com Books online for SQL Server 2012 Блог MicrosoftBI.ru Управление информацией организаций SQL Server 2008 R2 Master Data Services Новые возможности в SQL Server 2012 CTP3 для бизнес-аналитики