logo search
билеты все

Как работает хранилище данных в архитектуре фабрики?

Два подхода к архитектуре Хранилищ данных:

- корпоративная информационная фабрика (Corporate Information Factory, сокр. CIF) Билла Инмона;

- Хранилище данных с архитектурой шины (Data Warehouse Bus, сокр. BUS) Ральфа Кимболла.

Работа Хранилища данных в архитектуре фабрики начинается со скоординированного извлечения данных из источников. После этого загружается реляционная база данных 1 с третьей нормальной формой 2, содержащая атомарные данные. Получившееся нормализованное Хранилище используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т.е. данных, подготовленных для анализа. Эти репозитории, в частности, включают специализированные Хранилища для изучения и "добычи" данных (Data Mining), а также витрины данных.

Рис. Нормализованное Хранилище данных с пространственными витринами итоговых данных (CIF).

При таком сценарии конечные витрины данных создаются для обслуживания бизнес-отделов или для реализации бизнес-функций и используют пространственную модель для структурирования суммарных данных. Атомарные данные остаются доступными через нормализованное Хранилище данных. Очевидно, что структура атомарных и суммарных данных при таком подходе существенно различается.

Отличительных характеристик архитектуры CIF Хранилищ данных:

- использование реляционной модели организации атомарных данных и пространственной - для организации суммарных данных;

- использование итеративного или "спирального" подхода при создании больших Хранилищ данных, т.е. "строительство" Хранилища не сразу, а по частям. Это позволяет вносить изменения в небольшие блоки данных или программных кодов и избавляет от необходимости перепрограммировать значительные объемы данных в Хранилище. То же самое можно сказать и о потенциальных ошибках: они также будут локализованы в пределах сравнительно небольшого массива без риска испортить все Хранилище.

- использование третьей нормальной формы для организации атомарных данных, что обеспечивает высокую степень детальности интегрированных данных и, соответственно, предоставляет корпорациям широкие возможности для манипулирования ими и изменения формата и способа представления данных по мере необходимости.

- Хранилище данных - это проект корпоративного масштаба, охватывающий все отделы и обслуживающий нужды всех пользователей корпорации.

- Хранилище данных - это не механическая коллекция витрин данных, а физически целостный объект.