Data Fabric — Основные Понятия И Ключевые Различия С Data Mesh И Data Lake

Я попал сюда для изучения ряда статей на тему Data Fabric, в последнее время на эту тему опубликовано довольно много материалов: как о Data Fabric в целом, так и сравнениях этого подхода с такими модными понятиями, как Data Lake и Data. Сетка.

Строго говоря, цель данного материала – кристаллизовать основную составляющую концепции ДФ, в которой я хочу оставить только саму суть.



Так что же такое Data Fabric?

Это архитектура, подход, который говорит — не надо централизовать данные, нужно навести порядок там, где они есть изначально, и создать поверх них слой виртуализации данных, через который потребители получат доступ к этим данным.

Data Fabric не требует замены существующей инфраструктуры, а вместо этого добавляет дополнительный технологический уровень поверх существующей инфраструктуры, который управляет метаданными и доступом к данным.

Ну, или немного дольше: «Фабрика данных — это современная распределенная архитектура данных, которая включает в себя общие ресурсы данных и оптимизированные процессы управления и интеграции данных, которые вы можете использовать для унифицированного решения сегодняшних проблем с данными».

- тут переводить не надо и все красиво написано :) Какую проблему решает этот подход? Он борется с изменчивостью данных.

Когда у вас много источников, много потребителей и все источники достаточно разнородны не только с точки зрения того, что каждый источник содержит данные в разной структуре, но и с точки зрения того, что каждый источник содержит данные разных типов и разных локализаций.

(облачные сервисы, собственные базы данных) и т. д.).

В этом случае подходы к централизации данных перестают быть эффективными и требуют много ресурсов для внедрения и поддержки.

В чем решение - нет необходимости помещать данные в единое хранилище, нужно просто представить каждый источник в виде единого интерфейса к данным, которые можно использовать совместно.

Здесь нужно обратить внимание на ключевой момент: именно наличие слоя визуализации данных, который представляет данные в виде единой виртуальной витрины, является ключевым в этой концепции.

Как это сделать?

  1. Внедрить MDM
  2. Реализация каталога данных
  3. Внедрить управление метаданными
  4. Внедрить управление качеством данных, разработать регламенты и обеспечить мониторинг.

  5. Организуйте свои инструменты интеграции данных
  6. Внедрение инструментов виртуализации данных
  7. Предоставьте аналитикам инструменты для визуализации и анализа данных.

  8. Внедрение подходов к управлению данными
Можно ли все это сделать последовательно? Нет. Это постоянная деятельность — улучшение работы с данными в организации, внедрение и совершенствование перечисленных выше подходов, что приводит к появлению концепции Data Fabric в организации и постоянному повышению ее зрелости.



Data Fabric — основные понятия и ключевые различия с Data Mesh и Data Lake



Чем Data Fabric отличается от Data Lake?

Здесь, очевидно, разница очень очевидна.

Data Lake — это концепция централизации данных, Data Fabric — это концепция распределенной работы с данными.

Являются ли эти понятия взаимоисключающими? Нет. DL можно реализовать для определенного набора источников, если он нужен для каких-то задач.

Это и ДФ можно реализовать для набора источников, если это нужно для бизнеса.

Обе концепции могут легко сосуществовать в одной организации.



Data Fabric — основные понятия и ключевые различия с Data Mesh и Data Lake



Сетка данных против.

Фабрика данных

Здесь разница сложнее, поскольку в целом оба понятия схожи.

Ключевое отличие здесь: сетка данных не предполагает единого слоя «визуализации» для витрины данных.

Основные принципы, заложенные в Data Mesh:

  • Доменно-ориентированное децентрализованное владение данными и архитектура;
  • Данные как продукт;
  • Инфраструктура данных самообслуживания как платформа;
  • Федеративное вычислительное управление.

То есть, согласно этой концепции, команды, владеющие данными, просто выставляют свои Data-продукты, а команды, использующие эти продукты в некоторой совокупности, сделают объединение данных из разных источников уже на своей стороне.

В разных источниках подчеркивается, что Data Fabric — это больше о технологиях, а Data Mesh — больше об организационных подходах и культуре работы с данными.

При этом при подходе DF в организации остается централизованная команда, отвечающая за данные, тогда как DM предполагает распределенное владение данными.



Data Fabric — основные понятия и ключевые различия с Data Mesh и Data Lake

Ну а для тех, кто хочет изучить тему глубже, вот набор полезных ссылок:

Особая благодарность Елизавете Быковой за корректуру и дополнение материала :) Теги: #data #Data Engineering #озеро данных #сетка данных #фабрика данных #озеро данных и т. д.)
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.