В настоящее время в сфере анализа данных и BI уже невозможно не встретить такое понятие, как DATA VAULT. Однако, на мой взгляд, некоторый недостаток информации по этой теме, особенно в русскоязычном сегменте Интернета.
Можно найти интересные статьи об использовании DATA VAULT в компаниях, но основы и методология освещены недостаточно.
В англоязычном сегменте дела обстоят гораздо лучше.
Вы можете купить книги авторов-изобретателей методологии DATA VAULT, но есть и статьи в открытом доступе, посвященные основам.
Вдохновившись одной из таких статей, я попытаюсь передать основы методологии DATA VAULT на русском языке.
ХРАНИЛИЩЕ ДАННЫХ – происхождение
Основной предпосылкой появления DATA VAULT стала возрастающая изменчивость окружающей среды и необходимость быстрого реагирования на эти изменения.Например, появляется новый источник данных с ранее нехарактерной грануляцией данных в EDW (Enterprise Data Warehouse).
Ожидается, что методология DATA VAULT позволит быстрее добавлять новые исходные данные.
Кроме того, с помощью DATA VAULT проще построить систему, позволяющую хранить исторические данные.
Анатомия ХРАНИЛИЩА ДАННЫХ
Важным отличием DATA VAULT от других подходов к построению хранилищ данных является необходимость загрузки данных в состоянии, идентичном исходному.Процесс переноса данных из источников в DATA VAULT не предполагает каких-либо преобразований или дополнений.
Подход DATA VAULT подразумевает возможность сверки с источником.
Процесс преобразования данных будет осуществляться позже, при построении витрин данных на базе DATA VAULT.
Хабы (ХАБС)
HUB — это ядро DATA VULT. Правильно сформированные HUB позволяют объединять разные источники данных в корпоративном хранилище.Важно, чтобы источники были независимыми.
Исходя из этого, каждый HUB должен иметь свой уникальный бизнес-ключ (Business Key), не связанный с другими бизнес-объектами.
При создании записей HUB не следует использовать суррогатные ключи; ключи должны основываться на идентифицируемом субъекте хозяйствования или субъектах предпринимательства.
Идентифицируемым бизнес-объектом может быть столбец или набор столбцов, с помощью которых бизнес может идентифицировать необходимый объект, например, VIN-код автомобиля.
Это наиболее важный аспект методологии DATA VAULT; построение модели должно основываться на существующих бизнес-процессах и, соответственно, бизнес-терминологии и объектах.
Такой подход позволит построить хранилище, необходимое для реализации бизнес-целей, а не просто передавать логику существующих источников.
Структура HUB очень проста и содержит:
- Хэш бизнес-ключа – первичный ключ;
- Бизнес-ключ – уникальный идентификатор бизнес-объекта;
- Датой загрузки данных в HUB является дата, когда запись с назначенным бизнес-ключом впервые попала в ХРАНИЛИЩЕ ДАННЫХ, поле никогда не изменяется и не обновляется;
- Идентификатор источника, из которого была скачана информация — показывает, из какого источника впервые пришел бизнес-ключ, если у HUB несколько источников.
Ссылки (ССЫЛКИ)
Отношения являются основой гибкости и масштабируемости моделей DATA VAULT. Отношения создаются таким образом, чтобы обеспечить возможность изменения и расширения модели с течением времени, добавления новых объектов и установления новых связей, без изменения существующих и рабочих структур и процессов загрузки данных.В DATA VAULT соединения между всеми элементами реализуются через LINK. Важно отметить, что у HUB нет внешних ключей, и для связи между ними следует использовать LINK. Функция LINK — зафиксировать связь между элементами данных на самом низком уровне детализации.
Другим примером использования LINK являются транзакции, поскольку транзакции затрагивают несколько HUB. LINK — это таблица пересечения бизнес-ключей нескольких HUB, обеспечивающая связь «многие ко многим».
Таблица LINK, обеспечивающая соединение, должна иметь как минимум два родительских HUB; в случае представления транзакций LINK содержит несколько HUB. Как и HUB LINK, таблица имеет простую структуру:
- Первичный ключ обычно формируется из данных подключаемых HUB, например, при объединении страны и региона ключ LINK может представлять собой хешированную комбинацию названия страны и региона;
- Бизнес-ключи объединенных HUB;
- Содержимое полей, объединенных HUB;
- Дата появления соединения в системе;
- Источник, из которого была скачана информация.
Спутники
В этой структуре хранятся все описательные атрибуты, не используемые в ключах.Важной функцией SATELLITE является ведение истории изменения данных.
Для достижения этих целей первичный ключ состоит из двух частей:
- Первичный ключ родительского HUB;
- Дата загрузки данных в SATELLITE — отметка времени должна добавляться каждый раз, когда данные загружаются в SATELLITE.
При необходимости можно добавить источник генерации записи, но следует отметить, что это не тот же источник, что и HUB; в HUB фиксирован источник первой записи, а в SATELLITE фиксирован источник каждой записи, который может меняться.
выводы
Я постарался описать основные понятия DATA VAULT, его основные элементы, которые можно кратко описать:- Хаб (HUB) = таблица, содержащая бизнес-ключи;
- Ссылка (LINK) = таблицы для хранения связей между сущностями, а также предоставления хранилища для транзакций;
- Спутник (SATELLITE) = таблицы для хранения характеристик.
LINK – обеспечивают связь между сущностями.
СПУТНИК – хранит характеристики и обеспечивает хранение исторических данных.
Все это в совокупности дает DATA VAULT большую гибкость и адаптивность, чем стандартные подходы к разработке хранилищ данных, обеспечивает возможность контроля данных и их истории, а также позволяет масштабировать хранилище.
Но, как правило, DATA VAULT или Raw DATA VAULT имеет дальнейшее развитие, в связи с достаточной сложностью аналитических запросов к нему.
И следующий этап эволюции — Business DATA VAULT, здесь уже существуют дополнительные сущности, такие как: таблицы PIT и BRIDGE. Это о ХРАНИЛИЩЕ БИЗНЕС-ДАННЫХ будут включены в будущие статьи, если эта публикация получит положительный отклик.
Материалы статьи основаны на:
- На публикации Кента Грациано , который помимо подробного описания содержит схемы модели;
- Книга: «Создание масштабируемого хранилища данных с помощью DATA VAULT 2.0».
-
Разработка Игр В Социальных Сетях
19 Oct, 24 -
Ржд Начинает Продавать «Электронные Билеты»
19 Oct, 24