Процесс создания системы интеграции данных (СИД) в хранилище данных (на примере хранилища, построенного по технологии IBM BDW ) Позин Борис Аронович, технический.

Презентация:



Advertisements
Похожие презентации
Методы оценки времени отклика задач в двухъядерных системах реального времени СоискательГуцалов Н.В. Научный руководитель д.т.н., профессор Никифоров В.В.
Advertisements

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ) КАФЕДРА ИКТ Дипломный проект на тему: Студент: Руководитель проекта:
НАЧАТЬ ТЕСТ по КИТ2 Разработчики: Оскерко В.С., доцент, к.э.н. Панько Н.Г., студентка ДФФ-1, 2-й курс 2011 г.
Базы данных Лекция 01 Информационные технологии баз данных.
Кандидат технических наук, доцент Грекул Владимир Иванович Учебный курс Проектирование информационных систем Лекция 9.
Представление предметной области. Методы представления предметной области. Модель сущность-связь. Инфологическое описание предметной области.
Технический проект системы Технический проект системы - это техническая документация, содержащая общесистемные проектные решения, алгоритмы решения задач,
CRM БИЗНЕС СИСТЕМА. MS TelemarketingSIA "Multi Stream"2 CRM Customer Rrelationship Management - Управление взаимоотношениями с клиентами; Модель взаимодействия,
Новые решения ЕГЭ 2011 Система статистической отчетности ЕГЭ.
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ) КАФЕДРА ИКТ 1 Лекция 1 (окончание). О ключах и целостности. Курс:
High Level Seminar for Eastern Europe, Caucasus and Central Asia Countries (EECCA) Quality Matters in Statistics: Metadata Система метаданных в статистике.
Учебный курс Объектно-ориентированный анализ и программирование Лекция 4 Трансформация логической модели в программный код Лекции читает кандидат технических.
1 Реинжиниринг бизнес процессов Управления проектами при подготовке и реализации проекта реструктуризации предприятия.
ПОДХОД КРОК К ПОСТРОЕНИЮ MDM Глебова Елена ВЕДУЩИЙ КОНСУЛЬТАНТ ПО ВНЕДРЕНИЮ БИЗНЕС-ПРИЛОЖЕНИЙ КОМПАНИИ КРОК.
Агентство Республики Казахстан по статистике Астана, 2014 г. Перспективы внедрения стандарта SDMX в Агентстве Республики Казахстан по статистике.
Положение об отделе В.Андреев, Д.Сатин. Штат отдела начальник отдела; бизнес-аналитик; проектировщик пользовательских интерфейсов; специалист по анализу.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Система управления проектами и задачами JIRA Выполнили: Студентки 5 курса БГУ отделения «Финансы и кредит» Грамотнева Анна Гуреева Ирина.
Лекция 3 Лекция 3 Методологические основы БД. Типология свойств и связей объекта. Многоуровневые модели предметной области. Идентификация объектов и записей.
1 Диаграммы реализации (implementation diagrams).
Транксрипт:

Процесс создания системы интеграции данных (СИД) в хранилище данных (на примере хранилища, построенного по технологии IBM BDW ) Позин Борис Аронович, технический директор, д.т.н., профессор Лычагин Кирилл Анатольевич, начальник сектора ЗАО «ЕС-лизинг» МГУ, Москва,

Структура доклада 2 1. Процесс создания СИД и проблемы связанные с метаданными 2. Предлагаемая потоковая архитектура и особенности ее применения 3. Связанные с потоковой архитектурой уточнения процесса создания СИД и дополнительные метаданные

СИД Хранилище данных Система интеграции данных в Хранилище данных 3 Источники ExtractTransformLoad Область первичных данных Область предварительной обработки данных (Staging Area) Область предварительной обработки данных (Staging Area)

Процесс создания СИД 4 Discover – cбор требований со стороны пользователей, определение источников данных Analyze – анализ требований, анализ источников, анализ целевой модели Define – выбор архитектуры СИД, создание алгоритмов преобразования данных (спецификаций), описание различных вспомогательных алгоритмов, проектирование области предварительной обработки (Staging Area) Develop – Разработка и реализация ETL заданий, согласно спецификациям. Тестирование. Deploy – Внедрение СИД. Optimize, Manage – Анализ и оптимизация ETL заданий на основе данных о использование системы в промышленной среде

Результат процесса создания 5 Исполняемый код Метаданные

6 Технические метаданные источников Метаданные области первичных данных Метаданные, описывающие алгоритмы преобразования Метаданные ETL заданий Метаданные Staging Area Модель требований пользователей Метаданные, описывающие бизнес- процессы в источниках Описание взаимозависимости между источникам Технические метаданные Виды метаданных СИД Бизнес - метаданные Логи работы СИД Статистика производительности Статистические показатели обработанных данных Операционные метаданные

Актуальные проблемы разработки СИД СИД плохо отчуждаема, поскольку плохо описаны структура и состав метаданных, характеризующих преобразование данных в процессе интеграции Обеспечение быстрого предоставления результата бизнес – пользователям при изменении состава поступающих данных, ориентация на сокращение сроков разработки Отсутствие единой архитектуры СИД 7

Пример метаданных СИД 8 Логическая и физическая модели данных источников, области первичных данных и Staging Area

Пример метаданных СИД Описание алгоритмов преобразования 9

Пример метаданных СИД Проект ETL заданий и исполняемый код 10

11 Цели создания потоковой архитектуры совместно с BDW 1.Определение дополнительных бизнес и технических метаданных облегчающих процесс сопровождения и развития и повышающих отчуждаемость системы 2.Разработка единой архитектуры СИД, которая бы эффективно использовала особенности BDW 3.Упорядочение этапов «Проектирование» (Define) и «Разработка» (Develop) для более эффективной и целенаправленной организации работы команды разработчиков

IBM Banking Data Warehouse BDW – методология описания бизнес деятельности банков и построения хранилища данных для их нужд 12 Набор понятий - – концептов, концептуальная модель Реляционная логическая модель Реляционная физическая модель Правила перехода от концептуальной к логической модели Правила перехода от логической к физической модели

Концептуальная модель Иерархическая структура взаимосвязанных понятий, описывающих бизнес – деятельность банка 13 9 Концептов верхнего уровня

Концептуальная модель 14

Особенности BDW Позволяет бизнес - пользователю общаться с IT специалистом на «одном языке» Модели строятся на основании лишь требований бизнес – пользователей Концептуальная, логическая и физическая модели устойчивы к расширению состава поступающих данных 15

Модель данных ХД как отправная точка в создании СИД 16 Граница влияния источников Процесс обработки данных Разработка на основе модели данных области первичных данных Процесс обработки данных Граница влияния источников Источники Разработка на основе модели данных источников Область первичных данных

Идея потоковой архитектуры 17 СИД Источники Область первичных данных Поток обработки данных 1 Поток обработки данных 2 Поток обработки данных 3 Граница влияния источников Использование данных из другого потока

Принцип разделения СИД на потоки 18 Концептуальная модель Логическая модель Физическая модель 1 x Поток обработки данных Концептуальный объект (набор понятий) Набор логических сущностей и атрибутов Набор физических сущностей и атрибутов

Стандартные операции над данными 19 Поиск новой информации Формирование значений атрибутов: Создание суррогатных ключей Преобразование статичных справочников Формирование информационных атрибутов Генерация технических атрибутов Формирование связей Формирование физических таблиц

Компоненты потоков Предварительное преобразование (t0) – сбор из источников всех данных, относящих к объекту; 2. Поиск изменений (d) – поиск новых данных; 3. Преобразование кодов (v) - преобразование значений классификаторов из источника в значения, используемые в ХД; 4. Создание суррогатных ключей (k) – назначение на основе натуральных бизнес - ключей суррогатных ключей и построение справочника соответствия всех суррогатных ключей бизнес - ключам в различных источниках 5. Построение связей (vk) – назначение корректных внешних ключей по бизнес - ключам; 6. Конечное преобразование (t) – «раскладывание» данных по конечной структуре физических таблиц ХД и формирование технических атрибутов; 7. Загрузка данных (l) - помещение данных в базу данных ХД.

Общая архитектура 21 Однотипные компоненты t0 d v k vk t l Источники данных Исходные данные об объекте Последовательное исполнение компонент Ожидание выполнения компонент из другого потока и использование данных их него Экстракция Преобразование Загрузка Граница влияния источников Staging Area

Свойства источников Одновременное поступление данных из всех источников Экземпляры объекта идентифицируются простым идентификатором (строкой или числом) Локальные справочники в источниках содержат атомарные значения 22

Свойство расширяемости и устойчивости потоковой архитектуры к изменению входных данных 23 Однотипные компоненты t0 d v k vk t l Источники данных Исходные данные об объекте Последовательное исполнение компонент Ожидание выполнения компонент из другого потока и использование данных их него Экстракция Преобразование Загрузка Граница влияния источников Staging Area

Преимущества и недостатки потоковой архитектуры Преимущества 1.Устойчивость к расширению состава поступающих данных 2.Устойчивость к изменению уже обрабатываемых данных 3.Высокая степень параллелизма и масштабируемость 4.Стандартизация компонентов потоков 24 Недостатки 1.Возможное увеличение объема обрабатываемых данных 2.Возможная сложность компонента «Предварительное преобразование»

Метаданные в потоковой архитектуре 25 Описание объектов: концептуальная, логическая и физическая модели Алгоритмы работы с объектами: Идентификация объектов Спецификация компонента «Предварительное преобразование» Описание границы влияния систем источников Шаблоны компонентов Шаблоны потоков Предопределенная структура Staging Area и ее наполнение

Процесс создания СИД в потоковой архитектуре Процесс создания СИД более структурированный и целенаправленный - более короткие промежутки при развитие системы 26 Define (Проектирование)Develop (Разработка) Создание концептуальной, логической и физической моделей объектов Реализация шаблонов в выбранном инструменте Создание правил идентификации объектовРеализация шаблонов потоков Проектирование шаблонов каждого из типов компонентов Настройка шаблонов компонентов Проектирование шаблонов потоковРеализация компонентов «Предварительное преобразование» Создание спецификации компонентов «Предварительное преобразование» Наполнение Staging Area Проектирование Staging AreaСборка потоков Создание таблицы соответствия значений справочников СИ и локального справочника ХД Определение порядка запуска потоков в исходя их имеющихся ресурсов

Выводы 27 Использование Потоковой архитектуры позволяет: Улучшить описание процессов интеграции данных в СИД за счет дополнительных метаданных, и тем самым облегчить отчуждаемость системы, упросить процессы сопровождения и развития Сделать процесс создания СИД более структурированным и целенаправленным, уменьшив тем самым сроки предоставления новой информации бизнес - пользователям Использование Потоковой архитектуры совместно с методологией BDW позволяет: Ускорить создание СИД Сделать СИД устойчивой к расширению состава поступающей информации, тем самым снизить затраты на развитие.

Спасибо! 28 Вопросы ?