Базы данных Лекция 02 Технологии информационных хранилищ
Введение Данные, собранные в БД, не адекватны информации нужной лицам, принимающим решения Информационное хранилище (data warehouse) – это автоматизированная система, которая: –собирает данные из баз и внешних источников; –формирует, хранит и эксплуатирует информацию как единую Хранилище данных – очень большая предметно-ориентированная информационная корпоративная БД 2
Введение Основные причины внедрения DW : –Выполнение аналитических запросов и генерации отчетов на свободных вычислительных ресурсах. –Использование моделей данных и технологий, ускоряющие выполнение запросов и подготовку отчетности –Создание источника с очищенной информацией –Упрощение процесса подготовки отчетов –Создание среды для создания запросов и подготовки отчетов –Создание источника, соответствующего нужному сроку хранения данных и подготовки отчетов в прошлом –Защита пользователей от необходимости вникать в структуру и логику работы БД 3
Технологии анализа данных Хранилище данных набор данных: –предметно-ориентированный –интегрированный –привязанный ко времени –неизменяемый –для поддержки принятия решений В хранилищах данных применяются технологии: –баз данных, –OLAP, –глубинного анализа данных, –визуализации данных 4
Технологии анализа данных Основные характеристики хранилищ данных: –исторические данные; –подробные сведения и обобщенные данные; –данные в основном статические; –нерегламентированная, неструктурированная и эвристическая обработка данных; –средняя и низкая интенсивность обработки транзакций; –непредсказуемый способ использования данных; –предназначено для проведения анализа; –ориентировано на предметные области; –поддержка принятия стратегических решений; –обслуживает работников руководящего звена 5
Технологии анализа данных OLTP – оперативная транзакционная обработка данных () Характеристики OLTP системы –Большой объем информации –Часто различные БД для разных подразделений –Нормализованная схема, отсутствие дублирования –Интенсивное изменение данных –Транзакционный режим работы –Транзакции затрагивают небольшой объем данных –Обработка текущих данных – мгновенный снимок –Много клиентов –Малое время отклика – несколько секунд 6
Технологии анализа данных OLAP – оперативная аналитическая обработка данных (On-Line Analytical Processing) Характеристики OLAP системы –Большой объем информации –Синхронизированная информация из различных БД –Ненормализованная схема БД с дубликатами –Данные меняются редко –Выполняются сложные запросы –Анализ временных зависимостей –Небольшое количество пользователей –Большее время отклика – несколько минут 7
Технологии анализа данных Правила Кодда для OLAP систем: 1. Концептуальное многомерное представление 2. Прозрачность 3. Доступность 4. Постоянная производительность 5.Клиент-серверная архитектура 6. Общая многомерность 7. Динамическое управление разреженными матрицами 8. Многопользовательская поддержка 9. Неограниченные перекрестные операции 10. Интуитивная манипуляция данными 11. Гибкие возможности получения отчетов 12. Неограниченная размерность и число агрегаций 8
Технологии анализа данных Основные элементы OLAP: –Факт –Измерение –Объекты –Ячейка –Иерархия Основные операции OLAP: –Поворот –Проекция –Раскрытие –Свертка –Сечение 9
Различные модели данных Типы OLAP-серверов: –MOLAP (Multidimensional OLAP) - и данные, и агрегаты хранятся в многомерной БД –ROLAP (Relational OLAP) - детальные данные хранятся в реляционной БД; агрегаты хранятся в той же БД в специально созданных служебных таблицах –HOLAP (Hybrid OLAP) - данные хранятся в реляционной БД, а агрегаты хранятся в многомерной БД. 10
Типовые архитектуры Схема типа «звезда»: 11
Схема типа «снежинка» с нормализованными измерениями Типовые архитектуры 12
Типовые архитектуры Схема типа «снежинка» с выделением агрегированных таблиц 13
Типовые архитектуры Схема типа «снежинка» с выделением агрегированных таблиц и нормализованными измерениями 14
Проектирование структуры Решаемые задачи при построении хранилища: Обеспечение единой версии информации Улучшение качества хранимых данных Хранение данных в терминологии бизнеса Оптимизация хранения для аналитики Ускорение цикла разработки отчётов Обеспечение интерактивного составления отчётов Безопасность (централизация данных) Хранение истории операций Определение и мониторинг ключевых показателей Выявление нетривиальных закономерностей 15
Проектирование структуры Общая структура хранилища данных –Источники данных –Процедуры выгрузки, преобразования и загрузки данных –Хранилище данных –Витрины данных –Аналитические приложения 16
Проектирование структуры Состав хранилищ данных: Метаданные –Куб –Факты –Измерения o Уровни o Иерархии o Атрибуты Исходные данные Предварительно просуммированные данные 17
Подходы к построению DW Подход Билла Инмона ( Corporate Information Factory ): 1. Реляционная модель для атомарных данных 2. Пространственная модель для суммарных данных 3.«Строительство» Хранилища по частям 4. Третья нормальная форма для атомарных данных 5. Проект корпоративного масштаба 6. Физически целостный объект 18
Подходы к построению DW Подход Ральфа Кимболла (BUS - шина) 1. Пространственная модель «звезда» 2. Двухуровневая архитектура a)Подготовка данных b)Хранилище данных 3. Коллекция витрин данных 4. Данные о транзакциях и суммарные 5. Витрина имеет одну таблицу фактов 19
Подходы к построению DW 20
Подходы к построению DW Интернет и Web-технологии: 1. Управления контентом (Content Management) 2. Интеграции приложений (Application Integration) 3. Оценки и принятия решений (Business Intelligence Applications) 4. Организации взаимодействия (Collaboration) 5. Персонализации (Personalization) 6. Поиска (Search) 7. Управления пользователями и безопасностью (User Management and Security) 21