5 Вещей, Которые Должен Знать Каждый Инженер Данных О Наблюдаемости Данных



Как быть уверенным в своих рабочих процессах, строка за строкой

5 Вещей, Которые Должен Знать Каждый Инженер Данных О Наблюдаемости Данных

В ожидании старта онлайн-курса «Инженер данных» подготовил перевод материала.






Если вы начинающий инженер данных, вот несколько важные технологии и фреймворки , что вам следует знать.

Построить конвейер данных? Легко.

Очистить, преобразовать и смоделировать данные? Легко.

Предотвратить сбой в рабочем процессе до того, как генеральный директор позвонит вам по поводу пропажи данных? Ну, может быть, не все так просто.

Используя лучшие практики наших друзей в области разработки программного обеспечения и DevOps, мы можем применить более стратегический подход к решению проблемы «хорошие конвейеры — плохие данные».

В значительной степени этот подход также включает в себя наблюдаемость.

Джесси Андерсон , управляющий директор Института больших данных и автор книги «Команды по разработке данных: создание успешных команд и продуктов для работы с большими данными», а также Барр Мозес , соучредитель и генеральный директор Monte Carlo, делится всем, что вам нужно знать, чтобы начать работу на этом новом уровне стека данных.

Инжиниринг данных часто называют «сантехникой науки о данных» — обычно это относится к тому, как инженеры данных обеспечивают правильное функционирование всех конвейеров и рабочих процессов, а также то, что нужные данные передаются в правильных направлениях нужным заинтересованным сторонам.

Но у большинства дата-инженеров, с которыми я общаюсь, есть одно очень специфическое мнение о сантехниках: им звонят только тогда, когда что-то идет не так.

Вечернее письмо от вашего вице-президента - Мне нужны последние цифры для завтрашней презентации, а моя панель Looker не работает. Ранним утром телефонный звонок от специалиста по обработке данных: набор данных, который они используют для своей модели, больше не работает должным образом.

Слаб в середине совещания от руководителя отдела маркетинга: Окупаемость инвестиций в мою кампанию в этом месяце низкая.

Я думаю, что-то не так с данными атрибуции.

Сообщение, которое вы никогда не получите: Данные в этом отчете идеальны.

Так держать! Хорошо, я надеюсь, что ваша компания признает И ценит Неизменно хорошая работа, но суть остается той же: слишком много инженеров по обработке данных тратят слишком много времени на тушение пожаров, устранение проблем и попытки исправить утечки в конвейерах.

Одним из способов выбраться из этого порочного круга ночных писем является возможность наблюдения за данными.





№1. Что такое наблюдаемость данных и почему это важно

Наблюдение за данными — это новый уровень в современном стеке технологий обработки данных, обеспечивающий группы данных видимость, автоматизация и оповещение о поврежденных данных (т. е.

смещение данных, повторяющиеся значения, неработающие информационные панели.

вы поняли).

Наблюдаемость часто приводит к более быстрому разрешению проблем и может даже помочь предотвратить простои, в первую очередь влияющие на потребителей данных.

Помимо очевидной выгоды – более здоровые данные! - Наблюдение за данными также может укрепить доверие и способствовать развитию культуры, основанной на данных, во всей вашей организации.

Когда инструменты и платформы наблюдения становятся доступными потребителям данных, а также инженерам и специалистам по данным, они могут лучше понять, откуда берутся данные и как они используются, а также получать информацию в режиме реального времени о состоянии известных проблем.

Эта дополнительная прозрачность приводит к улучшению коммуникации, более эффективному сотрудничеству и большему доверию к данным.

А с помощью инструментов обеспечения видимости данных инженеры могут сэкономить драгоценное время, которое они ранее тратили на тушение пожаров и реагирование на чрезвычайные ситуации с данными.

Например, команда инженеров данных Блинкист обнаружили, что автоматизированный мониторинг экономит до 20 часов на одного инженера в неделю.

Теперь эти драгоценные часы можно потратить на инновации и решение проблем, а не на обсуждение природы проблемных данных.





№2. Как DevOps обеспечил наблюдаемость данных

Все эти разговоры о наблюдаемости, простоях, мониторинге и оповещениях, вероятно, знакомы любому, кто имеет опыт разработки программного обеспечения.

Это связано с тем, что параллели проведены намеренно: концепция наблюдаемости данных была вдохновленный DevOps , как следствие принципов и передового опыта, разработанных разработчиками программного обеспечения за последние 20 лет для предотвращения простоев приложений.

Как и в случае с DevOps, наблюдение за данными предполагает тщательный мониторинг данных, переключение с оперативного устранения неполадок на упреждающую автоматизацию мониторинга, оповещений и сортировки.

Применяя эти принципы, инженеры по данным могут лучше определять и оценивать качество данных, укрепляя доверие с другими командами и закладывая основу для организации, управляемой данными.

Следуя концепции наблюдаемости при разработке приложений, наблюдаемость данных разбивается на пять столпов: актуальность, распространение, объем, схема и происхождение.

  • Свежесть показывает, насколько актуальны ваши таблицы данных.

  • Распределение сообщает вам, попадают ли ваши данные в ожидаемый диапазон.

  • Объем ) предполагает понимание полноты ваших таблиц данных и состояния ваших источников данных.

  • Схема позволяет понять, кто и когда вносит изменения в таблицы данных.

  • Происхождение (Происхождение) сопоставляет вышестоящие источники и нижестоящие приемники ваших данных, помогая вам определить, где произошли ошибки или сбои.



№3. Перебои в передаче данных могут произойти по миллиону разных причин.

но есть три ключевых фактора, влияющих на все из них.

Время простоя данных воля происходит. В этом случае понимание общих факторов, которые способствуют большинству сбоев, поможет вам быстро решить проблемы.

Во-первых, огромное количество сторонних источников данных, на которые ваша компания опирается для предоставления данных — чем больше у вас источников, тем больше возможностей для того, чтобы данные были пропущены или неверны.

Вы не можете контролировать сторонние источники, но возможность наблюдения поможет вам первым узнать, когда что-то пойдет не так (а не вашему генеральному директору утром в день важного заседания совета директоров).

Во-вторых, по мере увеличения количества источников возрастает сложность конвейеров данных.

Как только данные попадают в вашу организацию, их можно хранить, защищать, обрабатывать, преобразовывать, агрегировать и доставлять — и, опять же, чем больше перемещаются ваши данные, тем больше возможностей для того, чтобы что-то пошло не так.

Последний ключевой фактор в повреждении данных может быть первым, о чем вы думаете: растущее число потребителей данных.



Поскольку данные поступают в большее количество информационных панелей и инструментов бизнес-аналитики, появляется больше возможностей для сбоев, а также невинных недопониманий или неправильных интерпретаций, которые могут вызвать пожарную тревогу в последнюю минуту, хотя на самом деле с вашими данными все в порядке.

Это произошло.





№4. Наблюдение за данными — это больше, чем просто тщательное тестирование и мониторинг.

Как и при разработке приложений, тестирование — это полезный способ выявить сбои или проблемы в ваших данных.

Но Одного тестирования данных недостаточно , особенно в больших масштабах.

Данные меняются очень часто, и даже наборы данных среднего размера создают большую сложность и изменчивость.

Они также поступают из сторонних источников, где изменения в структуре данных могут произойти без предупреждения.

А проблемы безопасности и соответствия требованиям могут затруднить для некоторых групп данных поиск репрезентативного набора данных, который можно использовать в целях разработки и тестирования.

Поскольку модульное тестирование не может обнаружить или предвидеть все возможные проблемы, инновационные группы обработки данных сочетают тестирование с непрерывным мониторингом и наблюдением на протяжении всего конвейера.

Автоматизация делает это возможным благодаря лучшим инструментам мониторинга, использующим машинное обучение для мониторинга, понимания и прогнозирования простоев с помощью автоматически создаваемых правил и интеллектуальной маршрутизации предупреждений.

Наблюдение за данными также обеспечивает происхождение, которое мы определили ранее как сопоставление между вышестоящими источниками и нижестоящими приемниками ваших данных.

Lineage действительно дает вам представление о ваших данных с высоты птичьего полета, понимание того, откуда они взялись, кто взаимодействовал с ними, какие изменения были внесены и где они в конечном итоге были доставлены конечным потребителям.

Эта видимость позволяет обнаруживать данные, которые мы описываем как следующее поколение каталогов данных, предоставление динамического анализа ваших данных на основе их происхождения.



Автоматическое, масштабируемое и распределенное обнаружение данных позволяет вам отвечать на вопросы о текущем состоянии ваших данных в каждом домене: когда эта таблица обновлялась в последний раз? Кто имеет к нему доступ? Когда этот информационный актив использовался в последний раз? Каково качество продукции? Имея в своем распоряжении всю эту информацию и средства автоматизации, вы можете подготовить и использовать надежные сценарии разрешения инцидентов.

В случае простоя ваша команда будет хорошо подготовлена к выявлению основной причины и быстрому реагированию — опять же, сокращая время, затрачиваемое на пожарную сигнализацию, в пользу инноваций и решения проблем.





№5. Когда дело доходит до ваших данных, наличие в основном плохих данных хуже, чем отсутствие данных вообще.

В отличие от плохого кода, плохие данные коварны.

При разработке приложений тестирование обычно выявляет некоторые ошибки — а если нет, то ваше приложение, скорее всего, выйдет из строя из-за ошибки в коде.

И тогда вы сможете это исправить.

С данными все по-другому.

Даже при тестировании вы можете не заметить, что неверные данные попали в вашу экосистему через один из многочисленных API или конечных точек.

А без прозрачности эти неверные данные могут оставаться незамеченными в течение некоторого времени, что приводит к неправильной отчетности и даже к неправильному принятию решений.

Поскольку организации все больше полагаются на данные для управления своим бизнесом, пришло время инженерам по обработке данных уделять качеству данных столько же внимания, сколько инженеры DevOps уделяют работоспособности приложений.

Применяя более целостный подход к качеству и обнаружению данных, вы и ваша команда можете сэкономить драгоценное время, укрепить доверие и разорвать порочный круг ночных электронных писем и тушения пожаров в последнюю минуту.

Навсегда.






- Узнать подробнее о курсе «Инженер данных»
Теги: #DevOps #наука о данных #данные #Инженерия данных
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2020-04-13 20:47:28
Баллов опыта: 720
Всего постов на сайте: 4
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.