Поддержка структурных изменений в процессах загрузки данных Долбешкин Андрей Николаевич, 545 группа Руководитель: Александр Сергеевич Дольник Рецензент:

Презентация:



Advertisements
Похожие презентации
Обработка структурных изменений источников данных в ETL процессах Долбешкин Андрей Николаевич, 445 группа Руководитель: Александр Сергеевич Дольник.
Advertisements

Разработка файлового менеджера для системы групповой работы Выполнил: Никитин Н.О, гр Руководитель: Тимченко Б.Д. Санкт-Петербург, 2014 г.
Сравнение подходов к индексированию XML документов c поддержкой некоторых операций модификации Выполнил: Василий Шикин, 545 группа Руководитель: Дмитрий.
Статистическая классификация многомерных регрессионных наблюдений Выполнил: Барановский Д.А. Руководитель канд. ф-м. наук, доцент: Малюгин В.И.
Этапы разработки базы данных.. Этапы разработки БД. 1. Постановка задачи. 2. Проектирование БД. 3. Создание БД в СУБД. 4. Управление БД в СУБД.
Поддержка разработки Parallels Business Automation в среде Eclispe Научный руководитель: Сергушенков Ю. А. Рецензент: доцент кафедры системного программирования,
ЭТАПЫ РАЗРАБОТКИ ПРОГРАММЫ. 1 ПОСТАНОВКА ЗАДАЧИ 2 АНАЛИЗ, ФОРМАЛИЗОВАННОЕ ОПИСАНИЕ ЗАДАЧИ, ВЫБОР МОДЕЛИ.
Процесс создания системы интеграции данных (СИД) в хранилище данных (на примере хранилища, построенного по технологии IBM BDW ) Позин Борис Аронович, технический.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
СППР OLAP и OLTP системы OLTP – оперативная транзакционная обработка данных OLAP – оперативная аналитическая обработка данных.
Анализ и выделение классов Практика 1. Задача 1 Диск состоит из пронумерованных кластеров. На диске есть именованные папки, в которые вложены папки или.
Базы данных Назначение и основные функции Гусельникова Е.В. МБОУ Лицей 130 имени академика М.А.Лаврентьева Новосибирск, 2011.
Системы отчетности и аналитики Cognos OLAP/BI. Демонстрация функциональных возможностей аналитической системы Cognos.
Web-сервис интеллектуальной обработки данных. Разработка семантического программного адаптера Терзиян А.В. Студент гр. ИСПР-00-1 Научный руководитель:
Задачи связности и реберной двусвязности на динамически меняющихся графах Автор: Сергей Копелиович, студент 545 группы Научный руководитель: старший преподаватель.
Проект: «Предоставление инструментальных средств поддержки внедрения стажировочными площадками современных моделей успешной социализации детей» в рамках.
Технология MVC в высоконагруженных проектах Андрей Шетухин Илья Космодемьянский.
Разработка системы развертывания веб- сервисов на базе Р2Р сети Дипломная работа Скворцова Н.С. Научный руководитель: Плискин М.М. Рецензент: Глиненко.
Зимняя Школа Параллельного Программирования 2011 Проект «Фрагментированное Программирование» : генератор графа фрагментированной программы для алгоритма.
Дипломная работа Разработка нейросетевого программного комплекса для анализа и прогнозирования котировок на Международном валютном рынке FOREX Выполнил:
Транксрипт:

Поддержка структурных изменений в процессах загрузки данных Долбешкин Андрей Николаевич, 545 группа Руководитель: Александр Сергеевич Дольник Рецензент: д. ф-м. н. Борис Асенович Новиков Санкт-Петербург 2012

О предметной области ETL процесс – процесс извлечения- преобразования-загрузки данных. Характерна регулярность. Внешние источники данных Локальные БД Операционные БД ETL Хранилище данных OLAP Статистика Анализ данных Отчеты

Постановка задачи Выявить структурные изменения в источниках данных Разработать метод диагностики, в том числе потенциальных, структурных изменений в источниках данных Реализовать метод поддержки структурных изменений

Классификация структурных изменения в источниках данных Удаление именованных/неименованных столбцов Переименование столбцов Изменение формата данных Изменение порядка столбцов Разделение столбцов Удаление связей

ETL-сценарий Файлы с данными по температуре Отбор параметров Фильтрация по региону Загрузка в БД Отбор файлов

ETL-сценарий

Чем плох классический сценарий ETL Сложность диагностики и исправления проблем – Сложность поиска причины – Сложность поиска виновного – Большие трудозатраты на исправление Сложность отслеживания качества данных Низкий уровень интерпретации ошибок

Описание модели Модель процесса представляется в виде графа (Alkis Simitsis) В основе лежит преобразование графов Проектирование ETL процесса на основе онтологий

Онтология O =, где – Х – понятия предметной области – R – отношения между понятиями (typeOf, partOf, is-a) – F - функциональные интерпретации (f1:string->{1,0}, f2:range->{1,0}, f3:regexp->{1,0}) Стандарт OWL 2.0 (W3C)

Описание модели SrcNode TrgNode Operation FILTER IntmNode Operation OntNode Is-a

Описание метода Расширение графовой модели Усовершенствование операции Filter Отложенное изменение процесса – Предложение внести изменение в процесс – Предложение сгенерировать процесс заново

Модифицированный ETL- сценарий Файлы с данными по температуре Отбор параметров Фильтрация по региону Загрузка в БД Корзина Фильтр Отбор файлов

Модифицированный ETL- сценарий

Описание особенностей реализации метода Реализован в виде плагина к Kettle – Осуществляет отображение модели данных на онтологию – Создает графовую модель процесса – Строит по модели процесса реальные трансформации в Kettle

Развитие ETL-процессов ПримерАнализКодир.Под.(2-4 мес.) Hardcode1 ч/д24 ч/д4 ч/д hardcode + libs 1 ч/д17 ч/д3-4 ч/д Kettle1 ч/д2.5 ч/д0.5-1 ч/д SETTL3 ч/давто~0

Заключение Классифицированы структурные изменения в источниках данных Разработан метод диагностики структурных изменений в источниках данных Реализован алгоритм перестроения процесса Решение уменьшает время разработки и поддержки процесса