Озеро Данных Для Маркетинга – От Чудовищных Таблиц До Отчетов И Визуализаций

Привет! Имея необходимую информацию, можно сделать много полезных (или много дико вредных) дел, это зависит от того, кто владеет этой информацией и что им движет. Чтобы работать с информацией, производить необходимые вам загрузки, составлять отчеты, вам нужно где-то хранить эту информацию.

Вот почему мы создали огромное озеро данных для маркетинга.

Меня зовут Андрей Наумов, я работаю в команде управления корпоративными данными и делаю продукт для маркетинга и продаж.

Наша задача — заполнить это озеро данными (ведь какое же это озеро данных без данных), чтобы с ним могли продуктивно работать как бизнесмены, так и непосредственные пользователи из числа сотрудников, которым необходимо построить детальную аналитику.



Озеро данных для маркетинга – от чудовищных таблиц до отчетов и визуализаций

Ниже под катом – о том, зачем вообще нам понадобилось такое озеро, как мы его строили, как оно помогает выйти на новые рынки сбыта внутри страны и за ее пределами, а также о наших планах на будущее.



Зачем это вообще нужно?

До создания единого озера данных ситуация с обработкой информации оставляла желать лучшего.

Нет, все работало, но могло быть гораздо лучше.

Для начала расскажу, как вообще работают ребята из нашего маркетолога.

Они работают с колоссальным объемом информации из множества источников данных.

Это источники как внутри СИБУРа, так и за его пределами, доступные в свободном доступе и доступные только по подписке, бесплатные и платные.

В общем, это всё равно зоопарк.

Большая часть этой информации представляет собой огромный плоский файл, для работы с которым требуется специальное программное обеспечение.

Часто для каждого типа данных существует отдельное программное обеспечение.

Понятное дело, что этот софт зачастую работает нестабильно или просто тупо.

Например, большая часть работы маркетинга связана с изучением товарных потоков (в том числе импорта и экспорта), с их помощью можно понять, какие товары покидают РФ, а какие, наоборот, поступают. Нас здесь интересует именно та продукция, которую СИБУР может прямо или косвенно продавать или создавать.

Информация, обрабатываемая этой системой, поступает пакетами, месяц за месяцем.

Невозможно было построить какую-либо внятную аналитику, скажем, за год или десятилетие, потому что мы были ограничены программными ограничениями — в Excel, например, есть определенное максимальное количество строк.

И мы получили таблицы с более чем миллионом строк.

Работники ПК просто не могли справиться с такими издевательствами.

И это всего лишь товаропотоки как один из источников, а таких источников много - есть и железнодорожная статистика, информация из внутренних систем о продажах компании, экспертные источники, отчеты, заказанные у внешних агентств и многое-многое другое.



Что делать

Возникла задача — создать единую версию документации в одном месте, чтобы каждый пользователь мог работать с данными, используя один инструмент визуализации и аналитики.

В версии «До» у нас была дичайшая нехватка внимания у маркетологов из-за самого этапа подготовки данных.

Де-факто оказалось, что наши маркетологи много времени работали дата-инженерами.

Это не правильно.

Было очень сложно работать и анализировать данные за период более года.

Потому что даже после подготовки и загрузки определенных данных за год мне приходилось их тщательно чистить.

От дубликатов, от ошибок, от неправильных названий.

Некоторые строки требовали объединения, например, у кого-то в таблице наша необъятная родина называлась «Россия», у кого-то она называлась «Российская Федерация», а кто-то лаконично вписал «РФ».

Все это пришлось свести к одной форме, и, как вы понимаете, пример с названием страны здесь далеко не единственный и не самый очевидный.

Другое дело, что мы холдинговая компания, у нас много организаций, и не все из них имеют в названии слово «СИБУР».

Поэтому, пытаясь выполнить поиск по списку и желая в пару кликов отфильтровать названия, чтобы видеть только компании холдинга, добиться результатов было непросто.

К тому же, сколько людей, столько и подходов к решению рабочих задач.

У каждого сотрудника был свой метод обработки, фильтрации, картирования и объединения данных.

Проблема в том, что эта методика существовала в голове сотрудника.

Поэтому в то время многое было привязано к конкретному человеку.

Это тоже не самая веселая история, ведь надо что-то разгрузить – а человек в отпуске.

И сидеть и ждать его.

Потому что без этого они либо будут делать это гораздо дольше, либо сделают это неправильно.

В общем, мы решили сделать так, чтобы не было зависимости от конкретного человека, чтобы вся информация была общей и доступной на едином уровне для любого пользователя, которому она может понадобиться.

Для этого мы сначала пошли в бизнес и спросили, какие источники данных им будут наиболее интересны.

Мы их определили и подготовили для них пилотное хранилище данных с технологиями озера данных (это озеро мы описали подробно и с диаграммами).

в этом посте ).

А затем, используя ряд ETL-инструментов, мы загрузили туда сразу все эти необходимые источники: товаропотоки, статистику продуктов и т. д. и аккуратно занесли в базу данных (Vertica).

Задача была интегрировать все возможное, что мы и сделали.

Мы используем Tableau для визуализации данных; его серверная версия была привязана к хранилищу и мы предоставили пользователям доступ ко всем данным сразу.

Пользователи, надо сказать, воодушевились — раньше ты сидел и смотрел на столы (огромные столы), а теперь для тебя все визуализировалось красиво и удобно.



Озеро данных для маркетинга – от чудовищных таблиц до отчетов и визуализаций

Анализ потока продукта

Озеро данных для маркетинга – от чудовищных таблиц до отчетов и визуализаций

Анализ продукта

Озеро данных для маркетинга – от чудовищных таблиц до отчетов и визуализаций

Анализ конкурентов Конечно, наши аналитики видят на экране не кучу размытых линий, а вполне реальные цифры и названия контрагентов, но мы не можем их показать.

Дополнительные полезные отзывы поступили от пользователей.

Они нам дали понять, что их не очень интересуют сырые данные, потому что каждый из них делал свою предварительную подготовку.

Поэтому мы начали прорабатывать наиболее частые сопоставления и переименования, переписали контрагентов, исправили множество ошибок - в графах могли быть дубликаты и знаки препинания, кто-то также мог указать своих контрагентов рядом с названием компании.

В общем, мусора было достаточно.

Мы привели страны к общему виду, это помогло их свернуть и развернуть по регионам - сотрудники могут в пару кликов выгрузить их по странам СНГ, Южной Америки или Северной Америки, что довольно важно для корректной аналитики.

Коллапс — вещь удобная, поэтому мы решили распространить эту практику на юридических лиц — как и на страны, только в масштабах холдингов и индивидуальных юридических лиц.



Почему анализ важен для работы с рынком

Благодаря проделанной работе стало возможным выводить отчеты за последние 15-20 лет по импорту и экспорту, не сходя с ума и не сжигая пару рабочих ПК.

Теперь вы можете взять этот временной период и расширить его на год или уменьшить на месяц.

Итак, вот оно.

В товарных потоках есть такое понятие, как ТНВЭД, товарная номенклатура внешнеэкономической деятельности.

Это число максимум из 10 цифр.

Чем больше цифр, тем точнее указание на конкретный товар.

Посмотрите на пример кофе.

09 - кофе, чай, мате, парагвайский чай, специи.

Довольно общая категория.

0901 2 - уже даст понять, что речь идет о жареном кофе.

0901 21 — жареный кофе с кофеином (необжаренный и без кофеина имеют разный код).

0901 21 000 2 — последние 10 цифр — это уже робуста (Coffea canephora).

То же самое и с важными для нас товарами.

То есть то, что мы продаем и производим.

Конечно, кофе тоже важен, но мы пока не потребляем его в таких количествах, чтобы скачивать статистику импорта.

Для нас важны полимеры, пластмассы и сырье, необходимое для их производства.

Здесь коды уже выглядят так.

39-40 — пластмассы и изделия из них; каучук, резина и изделия из них.

3901 - полимеры этилена в первичных формах 3901 1 - полиэтилен с удельным весом менее 0,94 3901 10 100 0 — линейный полиэтилен.

И так по каждому полимеру или виду сырья идем от общего к частному.

Зачем вообще за этим следить? Используя данные о потоках, можно довольно подробно понять, что определенное количество полимеров было импортировано в Российскую Федерацию в течение года.

Или сырье.

То есть кто-то покупает за пределами страны продукцию, которую мы также производим здесь, в Российской Федерации.

Тогда есть возможность посмотреть на сколько его покупают, с помощью ребят из продвинутой аналитики можно таргетировать правильные цены, и в конечном итоге сделать возможным достучаться до такого клиента с похожим товаром, но который мы и делаем.

делаю здесь, и предлагаю ему такой товар по разумной цене.

С учетом средств, которые он тратит на таможенные пошлины и транспортировку.

То же самое и с экспортом.

Некоторые из интересующих нас товаров часто экспортируются за границу.

Это значит, что спрос на него есть, причем очень постоянный и весьма хороший.

Это означает, что вы можете увидеть, что это такое, кому оно предназначено и сколько они за него платят. Потом прикиньте, сможем ли мы сделать то же самое с учетом затрат на логистику, имеет ли это смысл или нет. Это также помогает отслеживать активность конкурентов в том же районе и при необходимости корректировать свои цифры.

Но было бы слишком просто, если бы TNVЭD всегда уточняла, какой именно товар перевозится, не так ли? Поэтому некоторые граждане ввозят полиэтилен под другим кодом ТНВЭД, но здесь наши аналитики могут изучить другие поля в данных товаропотоков, а затем по совокупности признаков понять, что это именно полиэтилен, а не что-то другое.

указано в коде.

Это помогает увидеть дополнительные объёмы экспорта и импорта, которые могут ускользнуть от внимания при первых проверках.

На основании таких данных мы уже можем оценить, имеет ли нам смысл открывать дополнительное производство, которое окупится, судя по цифрам и объемам.

Еще больше обогащать такие отчеты мы можем с помощью анализа и экспертизы самих сотрудников — в базе данных появляется новое поле, например, «товар», по которому мы теперь тоже можем делать выборки и строить отчеты.

И по каждому конкретному товару (а это определяется как ТНВЭД, так и экспертными знаниями коллег) видеть, что у нас есть пара потенциальных клиентов внутри страны и еще несколько за ее пределами.

Поэтому можно заняться изготовлением для них сырья или даже конечного продукта.



Нам нужно пойти глубже

Можем пойти дальше — выбрав таких получателей внутри страны, мы сможем увидеть, что еще заказывают эти ребята из товаров, к которым мы имеем отношение.

А что, если их интересует не только полиэтилен, но и полипропилен, а также некоторые виды БОПП-пленки? Получается достаточно обширный массив знаний о конкретном потребителе, изучив который, можно сразу предложить ему товар, подходящую цену и комфортные условия.

Что у нас есть сейчас Мы продолжаем работать итеративно: вводим данные, собираем отзывы пользователей и совершенствуем наши аналитические правила.

Получается своего рода командная работа, мы чему-то учимся у них, они учатся у нас, потому что у них очень хорошие экспертные знания, а у нас технические знания.

После загрузки наиболее критичных исходников и базовой подготовки этих данных мы наконец переходим из тестового хранилища (все это время мы еще в тестировании, да) в боевое.

Это решит массу проблем, ведь боевой = сертифицированный, и там хранится много данных, которые нельзя было скормить тестовому (коммерческая тайна и прочее, что тоже важно для аналитики).

Теперь это фактически будет единое озеро данных с огромным количеством источников.

В том числе данные о котировках - наши коллеги из продвинутой аналитики умеют прогнозировать цены на тот или иной продукт, анализируя множество факторов - это могут быть акции самой компании, стихийные бедствия в регионах производства, слухи о слияниях и поглощениях и даже неудачный твит из чьих-то мануалов.

Предиктивная аналитика использует данные и производит прогнозы, эти же прогнозы добавляются в озеро данных, и маркетинг может использовать их для своих отчетов и аналитики.

Получается, что внутри одного озера происходит такой круговорот данных.

Пока все довольны - бизнес, отзывы максимально положительные, потому что понимают, сколько времени и сил экономит этот проект, и сами аналитики.

Итак, давайте двигаться дальше.

А кто хочет получить от данных максимум пользы вместе с нами - добро пожаловать на страницу вакансий в hh.ru .

Теги: #Хранилища данных #Хранение данных #аналитика #анализ данных #продажи #импорт #таможня #Сибур

Вместе с данным постом часто просматривают: