Хранилища данных
4 Хранилища данных – это процесс сбора, отсеивания и предварительной обработки данных с целью представления результирующей информации пользователям для статистического анализа и аналитических отчетов. 4 Ральф Кинболл (автор концепции хранилищ данных) описывал хранилища данных как «место, где люди могут получить доступ к своим данным».
Основные требования к хранилищам данных 4 поддержка высокой скорости данных из хранилища; 4 поддержка внутренней непротиворечивости данных; 4 возможность получения и сравнения данных;
4 наличие удобных утилит просмотра данных хранилища; 4 полнота и достоверность хранимых данных; 4 поддержка качественного процесса пополнения данных.
4 Всем перечисленным требованиям удовлетворять зачастую не удается, поэтому для реализации хранилищ данных используют несколько продуктов:
4 1- средства хранения данных; 4 2–средства извлечения и просмотра данных; 4 3–средства пополнения хранилищ данных;
Типичное хранилище данных как правило отличается от реляционной базы данных: 1) Обычная база данных предназначена для того, чтобы помочь пользователям выполнять повседневную работу, тогда как хранилища данных предназначены для принятия решений;
2) Обычная база данных подвержена постоянным изменениям в процессе работы пользователей, а хранилища данных относительно стабильно; данные в нем обновляются согласно расписанию (например, ежечасно, ежедневно, ежемесячно), в идеале, процесс пополнения данными за определенный период времени без изменения прежней информации находящейся уже в хранилище.
3) Обычная база данных чаще всего является источником данных попадающих в хранилище, кроме того хранилище может пополняться за счет внешних источников (например, сжатия данных).
Принципы построения ХД 4 Информация, которая загружается в хранилище, должна интегрироваться в целостную структуру, отвечающую целям анализа данных. 4 При этом минимизируются несоответствия между данными из различных оперативных систем, в хранилище именуются и выражаются единым образом.
4 Данные интегрированы на множестве уровней: на уровне ключа, атрибута, на описательном, структурном уровне и так далее.
4 Общие данные и общая обработка данных консолидированы и являются единообразным для всех данных, которые подобны или схожи в хранилище данных.
При этом информация структурируется по разным уровням детализации: 4 высокая степень суммаризации; 4 низкая степень суммаризации; 4 текущая детальная информация.
4 Хранилища можно рассматривать как набор моментальных снимков состояния данных: можно восстановить картинку на любой момент времени. 4 Атрибут времени всегда явно присутствует в структурах данных хранилища.
4 Попав однажды в хранилище, данные уже никогда не изменяются, а только пополняются новыми данными из оперативных систем, где данные постоянно меняются. 4 Новые данные по мере поступления обобщаются с уже накопленной информацией в хранилище данных.
Основные компоненты хранилища данных Использование технологии хранилищ данных предполагает наличие в системе следующих компонентов: 4 оперативных источников данных; 4 средств переноса и трансформации данных;
4 метаданных – включают каталог хранилища и правила преобразования данных при загрузке их из оперативных баз данных; 4 реляционного хранилища; 4 средств доступа и анализа данных.
4 Оперативные данные собираются из различных источников. 4 Поступившие оперативные данные очищаются, интегрируются и складываются в реляционные хранилище. 4 Они уже доступны для анализа при помощи средств построения отчетов.
4 Затем данные (полностью или частично) подготавливаются с использованием средств переноса и трансформации данных для OLAP- анализа, который реализуется применением средств доступа и анализа данных. 4 При этом они могут быть загружены в специальную базу данных OLAP или оставаться в реляционном хранилище.
4 Технология комплексного многомерного анализа данных получила название OLAP (On-Line Analytical Processing). OLAP это ключевой компонент организации хранилищ данных. Концепция OLAP была описана в 1993 году Эдгаром Коддом, известным исследователем баз данных и автором реляционной модели данных.
4 Важнейшим элементом хранилища являются метаданные, т.е. данные о структуре, размещении, трансформации данных, которые используются любыми процессами хранилища.
4 Метаданные могут быть востребованы для различных целей, например: извлечения и загрузки данных; обслуживании хранилища и запросов. 4 Метаданные для различных процессов могут иметь различную структуру, т.е. для одного и того же элемента данных может существовать несколько вариантов метаданных.
4 Итак, хранилища данных являются структурированными. 4 Они содержат базовые данные, которые образуют единый источник для обработки данных во всех системах поддержки принятия решений. 4 Элементарные данные, присутствующие в хранилище, могут быть представлены в различной форме.
4 Хранилища данных исключительно велики, поскольку в них содержатся интегрированные и детализированные данные. 4 Эти характеристики являются общими для всех хранилищ данных. Но, несмотря на то что хранилища обладают общими свойствами, разные типы хранилищ имеют свои индивидуальные особенности.