Основы Хранилища Данных

В настоящее время в сфере анализа данных и BI уже невозможно не встретить такое понятие, как DATA VAULT. Однако, на мой взгляд, некоторый недостаток информации по этой теме, особенно в русскоязычном сегменте Интернета.

Можно найти интересные статьи об использовании DATA VAULT в компаниях, но основы и методология освещены недостаточно.

В англоязычном сегменте дела обстоят гораздо лучше.

Вы можете купить книги авторов-изобретателей методологии DATA VAULT, но есть и статьи в открытом доступе, посвященные основам.

Вдохновившись одной из таких статей, я попытаюсь передать основы методологии DATA VAULT на русском языке.

ХРАНИЛИЩЕ ДАННЫХ – происхождение

Основной предпосылкой появления DATA VAULT стала возрастающая изменчивость окружающей среды и необходимость быстрого реагирования на эти изменения.

Например, появляется новый источник данных с ранее нехарактерной грануляцией данных в EDW (Enterprise Data Warehouse).

Ожидается, что методология DATA VAULT позволит быстрее добавлять новые исходные данные.

Кроме того, с помощью DATA VAULT проще построить систему, позволяющую хранить исторические данные.

Анатомия ХРАНИЛИЩА ДАННЫХ

Важным отличием DATA VAULT от других подходов к построению хранилищ данных является необходимость загрузки данных в состоянии, идентичном исходному.

Процесс переноса данных из источников в DATA VAULT не предполагает каких-либо преобразований или дополнений.

Подход DATA VAULT подразумевает возможность сверки с источником.

Процесс преобразования данных будет осуществляться позже, при построении витрин данных на базе DATA VAULT.

Хабы (ХАБС)

HUB — это ядро DATA VULT. Правильно сформированные HUB позволяют объединять разные источники данных в корпоративном хранилище.

Важно, чтобы источники были независимыми.

Исходя из этого, каждый HUB должен иметь свой уникальный бизнес-ключ (Business Key), не связанный с другими бизнес-объектами.

При создании записей HUB не следует использовать суррогатные ключи; ключи должны основываться на идентифицируемом субъекте хозяйствования или субъектах предпринимательства.

Идентифицируемым бизнес-объектом может быть столбец или набор столбцов, с помощью которых бизнес может идентифицировать необходимый объект, например, VIN-код автомобиля.

Это наиболее важный аспект методологии DATA VAULT; построение модели должно основываться на существующих бизнес-процессах и, соответственно, бизнес-терминологии и объектах.

Такой подход позволит построить хранилище, необходимое для реализации бизнес-целей, а не просто передавать логику существующих источников.

Структура HUB очень проста и содержит:

Хэш бизнес-ключа – первичный ключ;
Бизнес-ключ – уникальный идентификатор бизнес-объекта;
Датой загрузки данных в HUB является дата, когда запись с назначенным бизнес-ключом впервые попала в ХРАНИЛИЩЕ ДАННЫХ, поле никогда не изменяется и не обновляется;
Идентификатор источника, из которого была скачана информация — показывает, из какого источника впервые пришел бизнес-ключ, если у HUB несколько источников.

Ссылки (ССЫЛКИ)

Отношения являются основой гибкости и масштабируемости моделей DATA VAULT. Отношения создаются таким образом, чтобы обеспечить возможность изменения и расширения модели с течением времени, добавления новых объектов и установления новых связей, без изменения существующих и рабочих структур и процессов загрузки данных.

В DATA VAULT соединения между всеми элементами реализуются через LINK. Важно отметить, что у HUB нет внешних ключей, и для связи между ними следует использовать LINK. Функция LINK — зафиксировать связь между элементами данных на самом низком уровне детализации.

Другим примером использования LINK являются транзакции, поскольку транзакции затрагивают несколько HUB. LINK — это таблица пересечения бизнес-ключей нескольких HUB, обеспечивающая связь «многие ко многим».

Таблица LINK, обеспечивающая соединение, должна иметь как минимум два родительских HUB; в случае представления транзакций LINK содержит несколько HUB. Как и HUB LINK, таблица имеет простую структуру:

Первичный ключ обычно формируется из данных подключаемых HUB, например, при объединении страны и региона ключ LINK может представлять собой хешированную комбинацию названия страны и региона;
Бизнес-ключи объединенных HUB;
Содержимое полей, объединенных HUB;
Дата появления соединения в системе;
Источник, из которого была скачана информация.

Спутники

В этой структуре хранятся все описательные атрибуты, не используемые в ключах.

Важной функцией SATELLITE является ведение истории изменения данных.

Для достижения этих целей первичный ключ состоит из двух частей:

Первичный ключ родительского HUB;
Дата загрузки данных в SATELLITE — отметка времени должна добавляться каждый раз, когда данные загружаются в SATELLITE.

СПУТНИК — единственный элемент с двухкомпонентным ключом.

При необходимости можно добавить источник генерации записи, но следует отметить, что это не тот же источник, что и HUB; в HUB фиксирован источник первой записи, а в SATELLITE фиксирован источник каждой записи, который может меняться.

выводы

Я постарался описать основные понятия DATA VAULT, его основные элементы, которые можно кратко описать:

Хаб (HUB) = таблица, содержащая бизнес-ключи;
Ссылка (LINK) = таблицы для хранения связей между сущностями, а также предоставления хранилища для транзакций;
Спутник (SATELLITE) = таблицы для хранения характеристик.

HUB позволяют обеспечить бизнес-ориентированное хранилище и предоставляют возможность интеграции дополнительных источников данных.

LINK – обеспечивают связь между сущностями.

СПУТНИК – хранит характеристики и обеспечивает хранение исторических данных.

Все это в совокупности дает DATA VAULT большую гибкость и адаптивность, чем стандартные подходы к разработке хранилищ данных, обеспечивает возможность контроля данных и их истории, а также позволяет масштабировать хранилище.

Но, как правило, DATA VAULT или Raw DATA VAULT имеет дальнейшее развитие, в связи с достаточной сложностью аналитических запросов к нему.

И следующий этап эволюции — Business DATA VAULT, здесь уже существуют дополнительные сущности, такие как: таблицы PIT и BRIDGE. Это о ХРАНИЛИЩЕ БИЗНЕС-ДАННЫХ будут включены в будущие статьи, если эта публикация получит положительный отклик.

Материалы статьи основаны на:

На публикации Кента Грациано , который помимо подробного описания содержит схемы модели;
Книга: «Создание масштабируемого хранилища данных с помощью DATA VAULT 2.0».

Теги: #Большие данные #данные #Инжиниринг данных #Интеллектуальный анализ данных #sql #анализ данных #структуры данных #структуры данных #хранилище данных #склад

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

Основы Хранилища Данных

ХРАНИЛИЩЕ ДАННЫХ – происхождение

Анатомия ХРАНИЛИЩА ДАННЫХ

Хабы (ХАБС)

Ссылки (ССЫЛКИ)

Спутники

выводы

Советы, Которые Следует Учитывать При Выборе Электронной Книги

Почему Age Of Empires 2 — Лучшая Игра Среди Всех Стратегических Игр

Основатель «Эвитерры» Николай Заярный Объявлен В Розыск Интерпола

Ввод Данных Из Дома – Лучшие Вакансии По Вводу Данных Прямо У Вашей Двери

Как Бренды Обманывают Потребителей В Рекламе: Активиа И Иммунитет, Эклипс И Бактерии, Олай И Молодость

Программирование В Облаке: Краткий Обзор Онлайн-Ide

Разработка Игр В Социальных Сетях

«Шаблоны И Идиомы Python 3». Новая Книга Брюса Экеля.

Yahoo Раскритиковали За То, Что Она Является «Клоном Digg»

Ржд Начинает Продавать «Электронные Билеты»

Автор Статьи

Роман Иванов

Интересно

Bobocomm – Создатели Рекламы...

Growbydata — Программное Обеспечение Для Конкурентной Разведки...

Neolive - Программное Обеспечение Для Цифровых Вывесок...

Casey Powell Lacrosse 18 Xbox One X S Активация...

Увеличение Трафика На Выставке За Пределами Выставочного Зала...

Партнерам Нужна Надежная Маркетинговая Стратегия, Чтобы Добиться Успеха В...

Федуленков...

Dima Manisha