Я попал сюда для изучения ряда статей на тему Data Fabric, в последнее время на эту тему опубликовано довольно много материалов: как о Data Fabric в целом, так и сравнениях этого подхода с такими модными понятиями, как Data Lake и Data. Сетка.
Строго говоря, цель данного материала – кристаллизовать основную составляющую концепции ДФ, в которой я хочу оставить только саму суть.
Так что же такое Data Fabric?
Это архитектура, подход, который говорит — не надо централизовать данные, нужно навести порядок там, где они есть изначально, и создать поверх них слой виртуализации данных, через который потребители получат доступ к этим данным.Data Fabric не требует замены существующей инфраструктуры, а вместо этого добавляет дополнительный технологический уровень поверх существующей инфраструктуры, который управляет метаданными и доступом к данным.
Ну, или немного дольше: «Фабрика данных — это современная распределенная архитектура данных, которая включает в себя общие ресурсы данных и оптимизированные процессы управления и интеграции данных, которые вы можете использовать для унифицированного решения сегодняшних проблем с данными».
- тут переводить не надо и все красиво написано :) Какую проблему решает этот подход? Он борется с изменчивостью данных.
Когда у вас много источников, много потребителей и все источники достаточно разнородны не только с точки зрения того, что каждый источник содержит данные в разной структуре, но и с точки зрения того, что каждый источник содержит данные разных типов и разных локализаций.
(облачные сервисы, собственные базы данных) и т. д.).
В этом случае подходы к централизации данных перестают быть эффективными и требуют много ресурсов для внедрения и поддержки.
В чем решение - нет необходимости помещать данные в единое хранилище, нужно просто представить каждый источник в виде единого интерфейса к данным, которые можно использовать совместно.
Здесь нужно обратить внимание на ключевой момент: именно наличие слоя визуализации данных, который представляет данные в виде единой виртуальной витрины, является ключевым в этой концепции.
Как это сделать?
- Внедрить MDM
- Реализация каталога данных
- Внедрить управление метаданными
- Внедрить управление качеством данных, разработать регламенты и обеспечить мониторинг.
- Организуйте свои инструменты интеграции данных
- Внедрение инструментов виртуализации данных
- Предоставьте аналитикам инструменты для визуализации и анализа данных.
- Внедрение подходов к управлению данными
Чем Data Fabric отличается от Data Lake?
Здесь, очевидно, разница очень очевидна.Data Lake — это концепция централизации данных, Data Fabric — это концепция распределенной работы с данными.
Являются ли эти понятия взаимоисключающими? Нет. DL можно реализовать для определенного набора источников, если он нужен для каких-то задач.
Это и ДФ можно реализовать для набора источников, если это нужно для бизнеса.
Обе концепции могут легко сосуществовать в одной организации.
Сетка данных против.
Фабрика данных Здесь разница сложнее, поскольку в целом оба понятия схожи.
Ключевое отличие здесь: сетка данных не предполагает единого слоя «визуализации» для витрины данных.
Основные принципы, заложенные в Data Mesh:
- Доменно-ориентированное децентрализованное владение данными и архитектура;
- Данные как продукт;
- Инфраструктура данных самообслуживания как платформа;
- Федеративное вычислительное управление.
В разных источниках подчеркивается, что Data Fabric — это больше о технологиях, а Data Mesh — больше об организационных подходах и культуре работы с данными.
При этом при подходе DF в организации остается централизованная команда, отвечающая за данные, тогда как DM предполагает распределенное владение данными.
Ну а для тех, кто хочет изучить тему глубже, вот набор полезных ссылок:
- https://dzone.com/articles/data-fabric-what-is-it-and-why-do-youneed-it
- https://dzone.com/articles/data-fabric-vs-data-lake-comparison-9
- https://www.datanami.com/2021/10/25/data-mesh-vs-data-fabric-understanding-the-differences/
- https://martinfowler.com/articles/data-mesh-principles.html
- https://www.eckerson.com/articles/data-architecture-complex-vscomplicated
- https://blog.starburst.io/data-fabric-vs.-data-mesh-whats-thedifference
- https://www.dataengineeringweekly.com/p/data-mesh-simplified-areflection
- https://towardsdatascience.com/what-is-a-data-mesh-and-how-notto-mesh-it-up-210710bb41e0
- https://www.montecarlodata.com/decoding-the-data-mesh/
- https://www.datasciencecentral.com/are-data-meshes-really-datamarts-with-conformed-dimensions/
- https://dzone.com/articles/data-fabric-what-is-it-and-why-do-you-need-it
-
Креативный Подход К 8 Марта — Идеи Для Гиков
19 Oct, 24 -
Google Растет В 4 Раза Быстрее Яндекса
19 Oct, 24 -
Bittorrent Tracker На Основе Django
19 Oct, 24