Не Такие Большие Данные: Как Работать С Маленькими, Но Очень Ценными Данными

Что делать с данными в 2021 году, если вы — компания финансовых услуг с традиционной инфраструктурой и не выходите за рамки BI? Как и зачем разным бизнесам вести переговоры в B2B и что можно найти среди малых данных? Мы расскажем вам об опыте НРД, центрального депозитария РФ.

НРД владеет активами на сумму более 60 трлн руб.

и аккумулирует практически весь рынок ценных бумаг в России.

Основной бизнес ориентирован на надежность: хранение, расчеты, отчетность.

Если вы тоже задаете подобные вопросы или знакомы со словами финансовый бэк-офис, добро пожаловать под кат.

Не такие большие данные: как работать с маленькими, но очень ценными данными

В соответствии с Исследование руководителей больших данных 2020 г.

98,8% опрошенных компаний из списка Fortune 1000 инвестировали в создание бизнеса, ориентированного на данные.

Две трети опрошенных компаний инвестировали более 50 миллионов долларов, а каждая пятая инвестировала более 500 миллионов долларов.

Но то же исследование показывает год за годом: примерно две трети опрошенных руководителей признают, что их бизнес не стал ориентированным на данные.

Причем трое из четырех отмечают, что эта тема стала для них настоящим испытанием.

Что делать с этой информацией, если вы последние 15 лет не фокусировались на данных и наконец решили, что пора?



Данные, или что мы делали позапрошлым летом

Сначала мы задали себе ряд ключевых вопросов:
  1. Сколько данных у нас есть? Как быстро они растут и обновляются? Кто они такие? Где они хранятся?
  2. Какие из наших данных уникальны?
  3. Как структурированы процессы обработки данных? Как данные появляются в системах, где они дублируются и теряются?
  4. Сколько времени занимает получение информации? Сколько занимает и стоит типовой запрос или сложная аналитика?
  5. Что нам действительно нужно от данных?
Ответы на них не статичны и могут и будут меняться на разных этапах зрелости компании.

Например, мы фокусируемся на Классификация Google и Deloitte , но вы можете посчитать индекс зрелости данных, аналогичный BCG .

Теперь мы считаем, что приведенные ниже идеи актуальны, по крайней мере, для зрелого уровня.

Чтобы понять картину в НРД, мы начали с аудита.

Аудит данных и процессов работы с ними занял 3 месяца.

Команда на этом этапе: продуктовый и технический лид, занятость 30-50%, 1-2 представителя каждого бизнеса для собеседований и один лид ключевых систем для разовых запросов.

Результат оказался неоднозначным: с одной стороны, благодаря требованиям законодательства и глубокой интеграции с мировой финансовой инфраструктурой, системы и процессы управления данными в бизнесе теперь работают идеально.

В какой-то степени весь современный финансовый бизнес основан на данных.

С другой стороны, как и другие финансовые компании, мы в основном работаем со структурированными данными: транзакции, профили контрагентов, счета, плановые денежные потоки, отчетность, статусы процессов и т.д. Хранятся неструктурированные данные: переписка, логи, переговоры, видео- и фотоинформация.

в разных системах и используются в основном для аудита.

И болевая точка, которую выявил аудит: без радикальных изменений невозможны никакие новые направления, связанные с сочетанием существующих данных, а тем более с новыми данными.

Мы просто не сможем поддержать взрывной рост или выход в новый сегмент.

Не такие большие данные: как работать с маленькими, но очень ценными данными

В целом, если принять во внимание только объемы и темпы роста структурированной информации, то НРД при всем масштабе своего бизнеса в 10 раз отстает от традиционного рубежа больших данных.

Но если вы посмотрите на ценность и уникальность наших данных, мы окажемся на вершине.

  1. Проблемы с данными, с которыми часто сталкиваются наши коллеги по отрасли:
  2. Внутренних данных мало; имеющиеся внешние данные не используются.

  3. Не все доступные данные должным образом собираются, обрабатываются и хранятся.

  4. Те, что собраны, содержат ошибки и не всегда появляются вовремя.

  5. Те, что собраны и очищены, могут быть незаметно продублированы для бизнес-процессов и критичны для аналитики, или наоборот.
  6. Аналитика связана с неправильным выбором метрик или возможностей монетизации.

Мы отловили все проблемы в разном количестве.

Здесь главное не отчаиваться.

Если данных недостаточно, проверьте открытые.

Kaggle, наборы тестовых данных поставщиков, прямые запросы партнерам, открытые API интернет-сервисов.

Проверьте историю, чтобы узнать, подходит ли вам набор.

Как только вы поймете, что конкретные данные ценны для вас и работают, вы можете покупать.

Если данные необходимо пометить и они не являются конфиденциальными, привлеките студентов и проведите исследование.

Если данные дублируются, выберите основной источник, которому вы будете доверять.

Если в данных есть ошибки, трезво оцените, насколько они влияют на результат и способствуют итоговой точности анализа.

Важно – исправьте, неважно – смиритесь.

Кстати, бюрократическим ответом на аудит и концепцию KYD (знай свои данные; понимай «профиль» данных, которыми ты оперируешь) является каталог данных.

Но, если честно, все зависит от масштаба: если вы можете описать данные в простой форме и вам все понятно – дело сделано.

Если нет, постепенно усложняйте задачу.

Начните с вывески и, если это действительно необходимо, добавьте документы и специальные решения.

По поисковому запросу «каталог данных» есть варианты на любой бюджет :) Для себя мы остановились на Амундсене, но об этом в следующей серии.



Технологии: копать, не копать, делать вид, что копаешь?

После понимания ваших данных следующим шагом будут технологии.

Заманчивый ответ на задачу «внедрения больших данных» сверху — предложить правильную архитектуру и красивое технологическое решение для работы с абстрактными большими данными.

Но во-первых, не факт, что ваши данные большие, а во-вторых, не факт, что вы сможете справиться с технологиями и создать новую ценность.



Не такие большие данные: как работать с маленькими, но очень ценными данными

Чтобы ответить на вопрос о размере данных, можно сосредоточиться на понятии 3В Гартнер : объем, скорость, разнообразие.

И добавьте любые слова, начинающиеся с буквы V, которые кажутся вам подходящими для классификации (например, «Спутник V» к данным не относится, но если очень захотеть, его тоже можно использовать для классификации).

Очень условно этапы развития инфраструктуры работы с данными можно охарактеризовать следующим образом:

  1. 1С/Excel - все понятно.

    Данных не хватает, хоть графики на заборе рисуй мелом.

  2. BI-решения.

    Они могут быть «витринами» и собирать данные из нескольких баз данных, а могут быть основаны на СХД.

    Сюда также входят Tableau, Cognus, Qlik и аналоги.

  3. Специализированные решения для хранения и анализа больших или быстрых данных.

    Сюда входит все дорогое и не всегда полезное и условно-бесплатное, но требующее отличной команды: in-memory базы данных, кластерные решения на базе Hadoop/Spark/Kafka/Hive/NiFi и другие.

  4. Облачные решения: Amazon Athena/Redshift, Google BigQuery, Data Lake Analytics. Интересно, но страшно для финансовых компаний с точки зрения информационной безопасности.

    В качестве альтернативы для группы компаний появляются внутренние облака.

  5. Платформы данных, объединяющие пункты 2-4, виртуализация данных.

Более того, любая инфраструктура устаревает примерно каждые 5 лет. Поэтому, говоря о технологиях работы с данными, мы обсуждали стратегию развития инфраструктуры компании в целом, а не только локальное решение по работе с данными.

Не озеро данных, не универсальное хранилище, не аналитическая система.

Мы начали со 2-го уровня технологии (рабочий BI) и надеялись не переходить к следующим пунктам в течение следующих 2 лет. Команда на этом этапе: 1 продукт, 1 аналитик данных, 1/2 тимлида, 1 стажер.

Плюс по 1 человеку от каждого направления бизнеса и от каждой системы для периодических консультаций.

Ключевые вопросы для технологий на данном этапе делятся на категории «как это сделать» и «действительно ли нам это нужно».

Как быстро аналитик получит доступ к новым данным? Сколько людей на самом деле понадобится для загрузки данных для аналитики? Можно ли без разработки создать новый отчет или получить доступ к данным в новом разделе? Что тебя останавливает? Какую задержку вносит интеллектуальный анализ данных в задачи? Какие технологические ограничения имеют разные системы? На первый взгляд схема BI плюс прямые запросы к источникам «по задаче» работали.

Но через полгода мы поняли, что при нынешних технологиях сбор данных, не считая очистки и маркировки, занимает 75% времени аналитики.

Основные ограничения: устаревшие основные системы со сложной структурой баз данных, неунифицированные API и интеграция нескольких систем, последовательная координация между различными бизнес-направлениями и ИТ-функциями, а также привязка ролей доступа к конкретным системам, а не к данным.

Мы вернулись к вопросу централизованной инфраструктуры работы с данными.

Три важных для нас элемента: каталог данных для поиска необходимой информации, ETL и, собственно, склад. И главный риск в том, что делать инфраструктурные проекты больно, а переделывать их еще больнее.

Итак, мы начали с доказательства концепции (POC).

В POC стоит протестировать максимальное количество технологий на реальной задаче.

Задача должна включать самые разнообразные данные и тестировать самые архитектурно сложные места.

В качестве образца вы можете использовать самый рискованный тест на предположения, возникший при разработке продукта.

То есть, если вы больше всего сомневаетесь в работе с объемными данными, попробуйте на объеме.

Если данные в безопасности, запустите все сценарии риска для загруженных систем.

Если вы заинтересованы в объединении данных из разных источников и предоставлении их для аналитики, подключайте как можно больше источников и ограничивайте объем.

Если вы гибки, попробуйте радикальные изменения.

Например, мы решили протестировать работу с профилем клиента и прогнозирование вероятности покупки дополнительных товаров из линейки с учетом того, что часть данных обезличена.

Команда на данном этапе: 1 продукт, 2 аналитика данных/исследователя данных, 1 руководитель ИТ-команды, 1 инженер данных, 1 разработчик ML, 1/2 аналитика.

Отныне все завязано на людях.



Люди, или «у нас разные культурные ориентиры»

По большому счету вся работа с данными — это дело людей: их компетенций, открытости, культуры, участия.

Поэтому люди, построение процессов и культура работы с данными — ключевая часть информационной стратегии НРД.

До пандемии мы думали, что, возможно, не будем инвестировать, пока не проверим свои гипотезы и не поймем, как монетизировать.

Это полуправда.

Для проверки гипотезы необходимо как минимум:

  1. Аналитик(и).

  2. Сервер или облако для экспериментов (Сюрприз! Даже если данные умещаются в 1 скрипт или на ПК, совместная работа не работает и на общение уходит больше времени, чем на анализ).

  3. Дата-инженер — настройте доставку данных не более чем на 30% времени выполнения задачи.

  4. Участие бизнеса – владельцев данных и распорядителей данных.

Поэтому параллельно с тестированием технологий мы начали выстраивать матричное взаимодействие людей в разных бизнесах и подразделениях.

Ключевые роли в матрице данных НРД: аналитики данных/специалисты по данным, распорядители данных, инженеры по данным и инженеры по машинному обучению.

Аналитик данных отвечает за построение моделей, проверку гипотез и создание прототипов.

Распорядитель данных — для данных внутри бизнес-направлений.

При этом роль data steward совмещена с продуктовой — за данные отвечают те же люди, что и за развитие бизнеса и разработку продукта.

Теперь это способ избежать конфликта интересов между быстрым развитием и доступностью данных.

Распорядители данных есть в каждом направлении бизнеса.

Инженер по обработке данных делает данные более доступными, а инженер по машинному обучению помогает внедрить сервисы в производство.

Такая матричная структура дает представление о развитии с трех сторон: сам бизнес, ИТ-архитектура, управление данными (на уровне C это управляющие директора, CIO и CDO) – и подходит для текущего уровня зрелости компании.



Не такие большие данные: как работать с маленькими, но очень ценными данными

Что делать, если у распорядителя данных недостаточно ресурсов на 2 роли? Или снова возникнет конфликт интересов между застройкой и архитектурно правильными решениями? Или работа замедлится по какой-то другой причине? Соглашаться.

Короче говоря, теперь мы понимаем удобство данных как открытость.

Открытость для сотрудников компании: каждый может видеть выполнение задач; раз в 5-6 недель проводится демонстрация и обсуждение с управляющими данными и всеми, кто интересуется данными.

Открытость идеям.

Идеи приходят из несвязанных друг с другом областей, от студентов на конференциях, из самих данных.

Открытость к людям: в финансах сложно нанять звезд науки о данных за разумные деньги; их легче вырастить внутри себя.



Не такие большие данные: как работать с маленькими, но очень ценными данными

Быть открытым – значит понимать и принимать риски.

А культура принятия риска в разумных количествах должна быть на каждом уровне.

Например, мы не можем снизить контроль над конфиденциальными данными, но можем работать со студентами над открытыми наборами данных со схожей структурой.

Мы не можем рисковать своим основным бизнесом, но можем протестировать 10 новых гипотез и найти лучшую.

Риск в нашем случае означает, что лучше решить проблему и совершить ошибку, чем не решить ее вообще.

Каждый имеет право на ошибку на этапе исследования: управляющий данными, аналитик данных, инженер данных.

И последний совет: не передавайте управление данными на аутсорсинг.

Да, вырастить или собрать команду внутри компании в течение года — это дорого, но оно того стоит, если вы посмотрите на данные как на актив на следующие 5–10 лет. Теги: #Хранение данных #Финансы в ИТ #данные #Большие данные #Управление продуктами #большие данные #управление людьми #управление данными #анализ данных #управление данными #финансовый рынок

Вместе с данным постом часто просматривают: