Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемseminar.s2s.msu.ru
1 Процесс создания системы интеграции данных (СИД) в хранилище данных (на примере хранилища, построенного по технологии IBM BDW ) Позин Борис Аронович, технический директор, д.т.н., профессор Лычагин Кирилл Анатольевич, начальник сектора ЗАО «ЕС-лизинг» МГУ, Москва,
2 Структура доклада 2 1. Процесс создания СИД и проблемы связанные с метаданными 2. Предлагаемая потоковая архитектура и особенности ее применения 3. Связанные с потоковой архитектурой уточнения процесса создания СИД и дополнительные метаданные
3 СИД Хранилище данных Система интеграции данных в Хранилище данных 3 Источники ExtractTransformLoad Область первичных данных Область предварительной обработки данных (Staging Area) Область предварительной обработки данных (Staging Area)
4 Процесс создания СИД 4 Discover – cбор требований со стороны пользователей, определение источников данных Analyze – анализ требований, анализ источников, анализ целевой модели Define – выбор архитектуры СИД, создание алгоритмов преобразования данных (спецификаций), описание различных вспомогательных алгоритмов, проектирование области предварительной обработки (Staging Area) Develop – Разработка и реализация ETL заданий, согласно спецификациям. Тестирование. Deploy – Внедрение СИД. Optimize, Manage – Анализ и оптимизация ETL заданий на основе данных о использование системы в промышленной среде
5 Результат процесса создания 5 Исполняемый код Метаданные
6 6 Технические метаданные источников Метаданные области первичных данных Метаданные, описывающие алгоритмы преобразования Метаданные ETL заданий Метаданные Staging Area Модель требований пользователей Метаданные, описывающие бизнес- процессы в источниках Описание взаимозависимости между источникам Технические метаданные Виды метаданных СИД Бизнес - метаданные Логи работы СИД Статистика производительности Статистические показатели обработанных данных Операционные метаданные
7 Актуальные проблемы разработки СИД СИД плохо отчуждаема, поскольку плохо описаны структура и состав метаданных, характеризующих преобразование данных в процессе интеграции Обеспечение быстрого предоставления результата бизнес – пользователям при изменении состава поступающих данных, ориентация на сокращение сроков разработки Отсутствие единой архитектуры СИД 7
8 Пример метаданных СИД 8 Логическая и физическая модели данных источников, области первичных данных и Staging Area
9 Пример метаданных СИД Описание алгоритмов преобразования 9
10 Пример метаданных СИД Проект ETL заданий и исполняемый код 10
11 11 Цели создания потоковой архитектуры совместно с BDW 1.Определение дополнительных бизнес и технических метаданных облегчающих процесс сопровождения и развития и повышающих отчуждаемость системы 2.Разработка единой архитектуры СИД, которая бы эффективно использовала особенности BDW 3.Упорядочение этапов «Проектирование» (Define) и «Разработка» (Develop) для более эффективной и целенаправленной организации работы команды разработчиков
12 IBM Banking Data Warehouse BDW – методология описания бизнес деятельности банков и построения хранилища данных для их нужд 12 Набор понятий - – концептов, концептуальная модель Реляционная логическая модель Реляционная физическая модель Правила перехода от концептуальной к логической модели Правила перехода от логической к физической модели
13 Концептуальная модель Иерархическая структура взаимосвязанных понятий, описывающих бизнес – деятельность банка 13 9 Концептов верхнего уровня
14 Концептуальная модель 14
15 Особенности BDW Позволяет бизнес - пользователю общаться с IT специалистом на «одном языке» Модели строятся на основании лишь требований бизнес – пользователей Концептуальная, логическая и физическая модели устойчивы к расширению состава поступающих данных 15
16 Модель данных ХД как отправная точка в создании СИД 16 Граница влияния источников Процесс обработки данных Разработка на основе модели данных области первичных данных Процесс обработки данных Граница влияния источников Источники Разработка на основе модели данных источников Область первичных данных
17 Идея потоковой архитектуры 17 СИД Источники Область первичных данных Поток обработки данных 1 Поток обработки данных 2 Поток обработки данных 3 Граница влияния источников Использование данных из другого потока
18 Принцип разделения СИД на потоки 18 Концептуальная модель Логическая модель Физическая модель 1 x Поток обработки данных Концептуальный объект (набор понятий) Набор логических сущностей и атрибутов Набор физических сущностей и атрибутов
19 Стандартные операции над данными 19 Поиск новой информации Формирование значений атрибутов: Создание суррогатных ключей Преобразование статичных справочников Формирование информационных атрибутов Генерация технических атрибутов Формирование связей Формирование физических таблиц
20 Компоненты потоков Предварительное преобразование (t0) – сбор из источников всех данных, относящих к объекту; 2. Поиск изменений (d) – поиск новых данных; 3. Преобразование кодов (v) - преобразование значений классификаторов из источника в значения, используемые в ХД; 4. Создание суррогатных ключей (k) – назначение на основе натуральных бизнес - ключей суррогатных ключей и построение справочника соответствия всех суррогатных ключей бизнес - ключам в различных источниках 5. Построение связей (vk) – назначение корректных внешних ключей по бизнес - ключам; 6. Конечное преобразование (t) – «раскладывание» данных по конечной структуре физических таблиц ХД и формирование технических атрибутов; 7. Загрузка данных (l) - помещение данных в базу данных ХД.
21 Общая архитектура 21 Однотипные компоненты t0 d v k vk t l Источники данных Исходные данные об объекте Последовательное исполнение компонент Ожидание выполнения компонент из другого потока и использование данных их него Экстракция Преобразование Загрузка Граница влияния источников Staging Area
22 Свойства источников Одновременное поступление данных из всех источников Экземпляры объекта идентифицируются простым идентификатором (строкой или числом) Локальные справочники в источниках содержат атомарные значения 22
23 Свойство расширяемости и устойчивости потоковой архитектуры к изменению входных данных 23 Однотипные компоненты t0 d v k vk t l Источники данных Исходные данные об объекте Последовательное исполнение компонент Ожидание выполнения компонент из другого потока и использование данных их него Экстракция Преобразование Загрузка Граница влияния источников Staging Area
24 Преимущества и недостатки потоковой архитектуры Преимущества 1.Устойчивость к расширению состава поступающих данных 2.Устойчивость к изменению уже обрабатываемых данных 3.Высокая степень параллелизма и масштабируемость 4.Стандартизация компонентов потоков 24 Недостатки 1.Возможное увеличение объема обрабатываемых данных 2.Возможная сложность компонента «Предварительное преобразование»
25 Метаданные в потоковой архитектуре 25 Описание объектов: концептуальная, логическая и физическая модели Алгоритмы работы с объектами: Идентификация объектов Спецификация компонента «Предварительное преобразование» Описание границы влияния систем источников Шаблоны компонентов Шаблоны потоков Предопределенная структура Staging Area и ее наполнение
26 Процесс создания СИД в потоковой архитектуре Процесс создания СИД более структурированный и целенаправленный - более короткие промежутки при развитие системы 26 Define (Проектирование)Develop (Разработка) Создание концептуальной, логической и физической моделей объектов Реализация шаблонов в выбранном инструменте Создание правил идентификации объектовРеализация шаблонов потоков Проектирование шаблонов каждого из типов компонентов Настройка шаблонов компонентов Проектирование шаблонов потоковРеализация компонентов «Предварительное преобразование» Создание спецификации компонентов «Предварительное преобразование» Наполнение Staging Area Проектирование Staging AreaСборка потоков Создание таблицы соответствия значений справочников СИ и локального справочника ХД Определение порядка запуска потоков в исходя их имеющихся ресурсов
27 Выводы 27 Использование Потоковой архитектуры позволяет: Улучшить описание процессов интеграции данных в СИД за счет дополнительных метаданных, и тем самым облегчить отчуждаемость системы, упросить процессы сопровождения и развития Сделать процесс создания СИД более структурированным и целенаправленным, уменьшив тем самым сроки предоставления новой информации бизнес - пользователям Использование Потоковой архитектуры совместно с методологией BDW позволяет: Ускорить создание СИД Сделать СИД устойчивой к расширению состава поступающей информации, тем самым снизить затраты на развитие.
28 Спасибо! 28 Вопросы ?
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.