Наверняка в вашей компании не раз появлялись ребята в дорогих костюмах и хорошо говорящие люди, увлекательно рассказывающие вам, что без современных IT-гаджетов компании не просуществовать несколько лет! Все эти озеро данных (болото данных), КХД (кладбище корпоративных данных), сбор данных (будьте осторожны, чтобы не взорвать себя) управление данными (стать рабом своих данных) и иже с ними не исчезают из их историй, периодически сменяя друг друга.
Срок жизни очередного хайпа редко превышает год-два, но при желании для вас с огромным удовольствием откопают любую почти забытую технологию.
При этом большой финик продается как волшебный сундучок, из которого можно достать разные чудеса: ковер-самолет, кроссовки или даже шамаханскую царицу (что актуально).
Но, как правило, ковер-самолет съеден волшебной молью - и больше не летает, подошвы сапог отвалились - и ходить в них неудобно, а уж про дряхлую королеву и говорить нечего.
В этой статье я попытаюсь рассказать о старых добрых технологиях, которые до сих пор работают. О том, что можно извлечь из перечисленных выше хайповых технологий — и как простые смертные вроде нас могут всем этим пользоваться, не нанимая толпу дата-сайентологов с зарплатами > 10 тыс.
$ в месяц.
Статья продолжает цикл: Создание компании мечты: основные данные и интеграция Создание компании мечты: управление качеством данных
Содержание
1. Большие данные: постановка проблемы 2. Основные данные: бессмертная классика 3. Как хранить данные: нужен ли QCD? 4. Нормализация, или зачем нужны болота данных 5. Почему специалист по данным получает больше, чем аналитик, но делает меньше? 6. Шина данных против микросервисов 7. Как вообще не поддаваться хайпу?1. Большие данные: постановка проблемы
Роль больших данных в развитии современной цивилизации впечатляет. Но не по той причине, о которой вы думаете.Если Интернет в каждой деревне и каждом телефоне появился благодаря порнографии и социальным сетям (мессенджерам), то большие данные дали триллионы долларов производителям жестких дисков и оперативной памяти.
Проблема в том, что реальная польза от современных больших данных (в широком смысле слова) для всего человечества близка к пользе от порнографии, т.е.
за редким исключением.
ноль! Как это возможно, вы удивитесь.
Ведь любой консультант и продавец приводит целый десяток примеров, начиная с General Electric с их диагностикой состояния авиадвигателей, заканчивая таргетированной рекламой от Google! Проблема, если быть точнее, в повторяемости результатов.
Открою вам секрет: штат продавцов больших данных невелик.
Если вы попросите их привести еще несколько примеров, список закончится на втором десятке.
Я уверен, что они смогут назвать гораздо больше мессенджеров и порносайтов :) потому что их просто больше физически.
Конечно, результат от работы дата-сайентистов есть, но он редко удовлетворяет клиентов.
Потому что, потратив год работы и несколько миллионов на оборудование и зарплату, они в итоге дают совершенно тривиальные выводы и закономерности, очевидные любому линейному руководителю или местному специалисту.
Например, лучше всего продается товар, расположенный на уровне человеческого глаза.
А General Electric построила свое конкурентное преимущество на основе методов математического анализа и статистики, которые можно найти в любом университетском курсе математики.
Понятия больших данных еще не существовало.
Но с помощью математического анализа не удастся создать ажиотаж, а крупные менеджеры вряд ли прислушаются к двухсотлетним методам Фурье и Коши.
Ведь там всё скучно, скучно, нужно много думать, и уж точно нет. Серебряная пуля и волшебная таблетка.
Что делать? Работа! Долго, скучно и уныло, пытаюсь создать атмосферу, способствующую активному мышлению.
Как в канонических примерах от Bell Labs или той же GE. Это вполне возможно, более того, самые обычные люди, как мы с вами, способны на это, если их правильно мотивировать.
И начать нужно с.
2. Основные данные: бессмертная классика
Мастер-данные — это подход к структурированию информации, которой располагает компания.Если в какой-то момент вы обнаружите, что конкретная сущность используется одновременно в двух и более системах вашей компании (например, список сотрудников на внутреннем сайте, в базе данных 1С-Бухгалтерии или CRM-системе), вам необходимо перейти его в отдельную систему основных данных (MDM) — и заставить все системы использовать только этот каталог.
Попутно всем участникам нужно будет согласовать обязательные поля и атрибуты, а также придумать множество правил для контроля качества этих данных.
Среди специалистов по обработке данных моложе 30 лет бытует мнение, что окно для внедрения MDM-систем началось примерно в 2008 году и закончилось примерно в 2012–2015 годах.
Что после этого появилось столько новых инструментов (всякие Hadoop и Spark), что вам больше не нужно заморачиваться с мастер-данными, вам больше не нужно ходить и договариваться с владельцами всех систем, думать о последствиях выбора архитектура MDM и каждая конкретная деталь в каждом каталоге.
К несчастью для них и к счастью для вас, это окно не закрылось.
Системы MDM по-прежнему так же актуальны, как системы бухгалтерского учета или взаимодействия с клиентами.
А нам еще нужно думать и договариваться.
3. Как хранить данные: нужен ли QCD?
Нет, вам не нужны корпоративные кладбища данных.Идея о том, что для целей аналитики нужно иметь специально подготовленные наборы каждый данные (идеологи КХД это слово не только выделяют жирным, но и подчеркивают двойной чертой) в вашей компании абсурдны.
Фактическое использование этих данных минимально; 99% из них никогда не используются.
Однако идея предварительно обученных наборов данных сама по себе хорошая идея.
Вам просто нужно подготовить их перед возможным использованием, а не до этого.
И, конечно, нужно иметь работающую методику такой подготовки.
4. Нормализация, или зачем нужны болота данных
Это раздел про «озеро данных», или «болото данных».Легенды гласят, что можно свалить все данные без разбора в одну большую кучу.
Нет необходимости приводить все данные к одному формату, не нужно их нормализовать и очищать! И что есть такое специальное программное обеспечение, которое позволяет сделать из этой кучи данных полезные выводы и как волшебник из рукава вытащить нужные вам закономерности.
На практике самый «ценный» вывод, который можно сделать из озера данных, — это то, что ваша компания почти не работает во время январских праздников.
И главный вопрос в том, как некоторым мошенникам удалось убедить хоть кого-то в том, что такой подход работает. Я склоняюсь к гипнозу :)
5. Почему специалист по данным получает больше, чем аналитик, но делает меньше?
Маркетинг, грамотная самопрезентация, максимальная уверенность в себе.
Я тоже не исключаю гипноза :)
6. Шина данных против микросервисов
Мой любимый пример неправильного использования технологий.В любой достаточно крупной компании на определенном этапе развития появляется шина данных.
Не обязательно единообразно и «по науке», но сама функция реализована успешно.
Подробнее о подходе можно прочитать более подробно и системно.
в предыдущей статье .
В качестве альтернативы молодым, успешно развивающимся компаниям предлагается использовать микросервисы или наборы открытых API, уникальные для каждой используемой системы.
Да, микросервисы очень удобны, когда вы пишете один единственный продукт, с которым могут интегрироваться другие.
Микросервисы, как правило, довольно легко писать, легко тестировать и не требуют каких-либо переговоров во время разработки.
Именно поэтому их любят и разработчики, и менеджеры.
Как показывает практика, любые две системы прекрасно интегрируются посредством микросервисов.
Любые три хороши.
Любые пятёрки терпимы, если всё очень тщательно документировать и покрывать автотестами.
Уже на десяти системах, архитектура которых на старте выглядела великолепно, подход превращается в своего рода клубок, паутину, когда определенные потоки отваливаются и не работают месяцами.
На нескольких десятках систем (цифра только кажется впечатляющей, ведь любое предприятие использует гораздо больше информационных систем) подход зарывается сам собой.
А через несколько лет возникает какая-то централизация и автобусность.
Обычно это делают другие люди.
7. Как вообще не поддаваться хайпу?
Вы видели несколько примеров хайпа, когда какой-то подход или технология могут оказаться бесполезными.И это с учетом того, что по мировой статистике доля успешно завершенных проектов разработки и внедрения в сфере ИТ редко превышает 40%.
Послевкусие от провальных или бесполезных проектов может быть таким, что компания временно вообще откажется от ИТ-инициатив – до тех пор, пока следующий влиятельный менеджер не «оседлает» очередной хайп.
Чтобы не попасться на ажиотаж, перед следующей реализацией необходимо выяснить следующее: — у техники есть большой «скамейка».
Количество приведенных примеров успешного применения должно превышать пару десятков, и они не должны создавать ощущение, что «здесь происходит какое-то волшебство»; — технология должна пройти «бабушкин тест» (объяснение сути должно быть настолько понятным, чтобы с ним справилась даже ваша бабушка — повторяю, никакого волшебства); — у технологии должен быть конкретный, оцифрованный список достижений, которые ваша компания получит в результате.
Внедрители MDM, CRM или той же 1С бухгалтерии могут часами рассказывать о преимуществах своего решения на примере ваших конкретных задач.
Реализаторы больших данных «в общем» начинают говорить, что сначала мы соберем кучу данных, а потом посмотрим, что с ними делать; - и, наконец, технология должна быть фальсифицируемой (в смысле Критерий Поппера ), т.е.
разработчик должен четко понимать сферу его применения и актуальность - и уметь обосновать против (!) выполнение.
Не нужно забивать гвозди микроскопом, да и вообще, например, если у вас мало клиентов, вам нужна супер-пупер CRM? По большому счету этого уже достаточно, чтобы продолжать просто работать и не отвлекаться на хайп.
Можете ли вы предложить какие-либо другие критерии? Приглашаю вас к обсуждению! Теги: #Хранилища данных #Управление проектами #Большие данные #Анализ и проектирование систем #наука о данных #озеро данных #шина данных #esb #mdm #архитектура интеграции #архитектура интеграции #основные данные #основные данные #минигом данных #QCD
-
Идея Для Геосервиса
19 Oct, 24