Основы Хранилища Данных

В настоящее время в сфере анализа данных и BI уже невозможно не встретить такое понятие, как DATA VAULT. Однако, на мой взгляд, некоторый недостаток информации по этой теме, особенно в русскоязычном сегменте Интернета.

Можно найти интересные статьи об использовании DATA VAULT в компаниях, но основы и методология освещены недостаточно.

В англоязычном сегменте дела обстоят гораздо лучше.

Вы можете купить книги авторов-изобретателей методологии DATA VAULT, но есть и статьи в открытом доступе, посвященные основам.

Вдохновившись одной из таких статей, я попытаюсь передать основы методологии DATA VAULT на русском языке.



ХРАНИЛИЩЕ ДАННЫХ – происхождение

Основной предпосылкой появления DATA VAULT стала возрастающая изменчивость окружающей среды и необходимость быстрого реагирования на эти изменения.

Например, появляется новый источник данных с ранее нехарактерной грануляцией данных в EDW (Enterprise Data Warehouse).

Ожидается, что методология DATA VAULT позволит быстрее добавлять новые исходные данные.

Кроме того, с помощью DATA VAULT проще построить систему, позволяющую хранить исторические данные.



Анатомия ХРАНИЛИЩА ДАННЫХ

Важным отличием DATA VAULT от других подходов к построению хранилищ данных является необходимость загрузки данных в состоянии, идентичном исходному.

Процесс переноса данных из источников в DATA VAULT не предполагает каких-либо преобразований или дополнений.

Подход DATA VAULT подразумевает возможность сверки с источником.

Процесс преобразования данных будет осуществляться позже, при построении витрин данных на базе DATA VAULT.

Хабы (ХАБС)

HUB — это ядро DATA VULT. Правильно сформированные HUB позволяют объединять разные источники данных в корпоративном хранилище.

Важно, чтобы источники были независимыми.

Исходя из этого, каждый HUB должен иметь свой уникальный бизнес-ключ (Business Key), не связанный с другими бизнес-объектами.

При создании записей HUB не следует использовать суррогатные ключи; ключи должны основываться на идентифицируемом субъекте хозяйствования или субъектах предпринимательства.

Идентифицируемым бизнес-объектом может быть столбец или набор столбцов, с помощью которых бизнес может идентифицировать необходимый объект, например, VIN-код автомобиля.

Это наиболее важный аспект методологии DATA VAULT; построение модели должно основываться на существующих бизнес-процессах и, соответственно, бизнес-терминологии и объектах.

Такой подход позволит построить хранилище, необходимое для реализации бизнес-целей, а не просто передавать логику существующих источников.

Структура HUB очень проста и содержит:

  • Хэш бизнес-ключа – первичный ключ;
  • Бизнес-ключ – уникальный идентификатор бизнес-объекта;
  • Датой загрузки данных в HUB является дата, когда запись с назначенным бизнес-ключом впервые попала в ХРАНИЛИЩЕ ДАННЫХ, поле никогда не изменяется и не обновляется;
  • Идентификатор источника, из которого была скачана информация — показывает, из какого источника впервые пришел бизнес-ключ, если у HUB несколько источников.



Ссылки (ССЫЛКИ)

Отношения являются основой гибкости и масштабируемости моделей DATA VAULT. Отношения создаются таким образом, чтобы обеспечить возможность изменения и расширения модели с течением времени, добавления новых объектов и установления новых связей, без изменения существующих и рабочих структур и процессов загрузки данных.

В DATA VAULT соединения между всеми элементами реализуются через LINK. Важно отметить, что у HUB нет внешних ключей, и для связи между ними следует использовать LINK. Функция LINK — зафиксировать связь между элементами данных на самом низком уровне детализации.

Другим примером использования LINK являются транзакции, поскольку транзакции затрагивают несколько HUB. LINK — это таблица пересечения бизнес-ключей нескольких HUB, обеспечивающая связь «многие ко многим».

Таблица LINK, обеспечивающая соединение, должна иметь как минимум два родительских HUB; в случае представления транзакций LINK содержит несколько HUB. Как и HUB LINK, таблица имеет простую структуру:

  • Первичный ключ обычно формируется из данных подключаемых HUB, например, при объединении страны и региона ключ LINK может представлять собой хешированную комбинацию названия страны и региона;
  • Бизнес-ключи объединенных HUB;
  • Содержимое полей, объединенных HUB;
  • Дата появления соединения в системе;
  • Источник, из которого была скачана информация.



Спутники

В этой структуре хранятся все описательные атрибуты, не используемые в ключах.

Важной функцией SATELLITE является ведение истории изменения данных.

Для достижения этих целей первичный ключ состоит из двух частей:

  • Первичный ключ родительского HUB;
  • Дата загрузки данных в SATELLITE — отметка времени должна добавляться каждый раз, когда данные загружаются в SATELLITE.
СПУТНИК — единственный элемент с двухкомпонентным ключом.

При необходимости можно добавить источник генерации записи, но следует отметить, что это не тот же источник, что и HUB; в HUB фиксирован источник первой записи, а в SATELLITE фиксирован источник каждой записи, который может меняться.



выводы

Я постарался описать основные понятия DATA VAULT, его основные элементы, которые можно кратко описать:
  • Хаб (HUB) = таблица, содержащая бизнес-ключи;
  • Ссылка (LINK) = таблицы для хранения связей между сущностями, а также предоставления хранилища для транзакций;
  • Спутник (SATELLITE) = таблицы для хранения характеристик.

HUB позволяют обеспечить бизнес-ориентированное хранилище и предоставляют возможность интеграции дополнительных источников данных.

LINK – обеспечивают связь между сущностями.

СПУТНИК – хранит характеристики и обеспечивает хранение исторических данных.

Все это в совокупности дает DATA VAULT большую гибкость и адаптивность, чем стандартные подходы к разработке хранилищ данных, обеспечивает возможность контроля данных и их истории, а также позволяет масштабировать хранилище.

Но, как правило, DATA VAULT или Raw DATA VAULT имеет дальнейшее развитие, в связи с достаточной сложностью аналитических запросов к нему.

И следующий этап эволюции — Business DATA VAULT, здесь уже существуют дополнительные сущности, такие как: таблицы PIT и BRIDGE. Это о ХРАНИЛИЩЕ БИЗНЕС-ДАННЫХ будут включены в будущие статьи, если эта публикация получит положительный отклик.

Материалы статьи основаны на:

  1. На публикации Кента Грациано , который помимо подробного описания содержит схемы модели;
  2. Книга: «Создание масштабируемого хранилища данных с помощью DATA VAULT 2.0».

Теги: #Большие данные #данные #Инжиниринг данных #Интеллектуальный анализ данных #sql #анализ данных #структуры данных #структуры данных #хранилище данных #склад
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.