Пять Мифов О Data Science

Меня зовут Иван Серов, я работаю в отделе Data Science финтех-компании ID Finance. Data Scientist — достаточно молодая, но очень популярная профессия, окруженная множеством мифов.

В этом посте я расскажу о нескольких заблуждениях, с которыми сталкиваются начинающие специалисты по обработке данных (DS).



Пять Мифов О Data Science



DS не обязан знать о бизнесе

Хороший ДС должен не только уметь построить хорошую модель, но и понимать, почему ему следует строить такую модель, и даже говорить, что эта модель в таком случае не нужна.

Например, для одного из наших проектов мы сделали модель, которая прогнозировала наличие денег на счете клиента и списывала их по специальному алгоритму.

Но в процессе создания модели мы поняли, что она не нужна: проще немного улучшить алгоритм работы.

Иногда затраты на эксплуатацию ДС значительно превышают доходы от разрабатываемой новой модели.

В этом случае ему следует обсудить необходимость такой модели с руководителем проекта и перейти к чему-то более полезному.



Пять Мифов О Data Science



Сложные алгоритмы всегда лучше

XGBoost, LightGBM, Random Forest. Все эти алгоритмы называются первоприоритетными для любой задачи.

Многие новички в DS даже не пытаются начать с чего-то более простого.

Однако когда вдруг возникает проблема с разреженными данными, где 10 000 переменных и 20 000 строк, а XGBoost показывает Gini 0,2 (AUROC 0,6), начинаются проблемы.

Например, в этом случае лучше подойдет простая SVM с нелинейным ядром, дающая Джини 0,8. Простые модели иногда работают лучше, чем сложные.



Пять Мифов О Data Science



Если хочешь стать крутым DS, иди в большую компанию

Каждый день мы слышим от крупных компаний об их новых проектах.

Как искусственный интеллект улучшает один процесс на 10%, другой на 20% и так далее.

После этого у многих может сложиться впечатление, что только в крупных компаниях что-то происходит, а в компаниях поменьше нет интересных проектов и хороших ДС.

К счастью, это не так — поработав в одном из крупнейших банков, который позиционирует себя как digital, могу сказать, что в стартапах есть более интересные проекты.

Скорость реализации проектов в крупных компаниях уже стала притчей во языцех и поводом для мемов.

Например, в банке проект может быть реализован за 3 месяца или полгода, за это время в стартапе вы успеете выполнить несколько проектов.

Вывод: PR крупных компаний – это зачастую просто пиар.



Пять Мифов О Data Science



Руководителям проектов платят больше, чем хорошим специалистам

Те, кто перерастает средний уровень, часто сталкиваются с вопросом, куда двигаться дальше.

На самом деле есть два варианта — Lead Data Scientist (руководитель группы) и Senior DS. О разнице между уровнями уже написано много (например, Здесь хороший пост от Виктора Кантора), скажу лишь, что зарплата у хороших специалистов может быть гораздо выше, чем у любого тимлида, и отталкиваться нужно только от своих желаний.

Обычно после нескольких лет работы начинается выгорание, все задачи кажутся одинаковыми и приедаются.

Здесь нужно либо искать что-то новое (благо у лидеров рынка, таких как Nvidia, Amazon или Яндекс, всегда что-то есть), либо идти в менеджмент (Lead DS -> Chief DS -> CDO), что многие и выбирают.



DS не должен внедрять модель или тестировать ее результаты.

Многие не согласятся, мол, теперь есть инженеры, которые должны реализовать эти модели.

Но DS все равно должна позаботиться о том, чтобы облегчить работу дата-инженера и как минимум:

  • Пишите грамотный код, который легко понять
  • Подумайте о кодировании переменных.

    Например, LabelEncoder можно легко загрузить в виде файла .

    pkl, но частотное кодирование новых данных может стать проблемой.

  • Подумайте, как в дальнейшем будут проводиться АБ-тесты (кстати, оценка модели после внедрения в производство в большинстве случаев все равно лежит на том, кто ее разработал)
Во многих компаниях вообще нет дата-инженеров, и DS все делает сама.



Также возможно, что модель взаимодействует с вашим сервисом через API, который создан кем-то из ИТ-специалистов, и не факт, что они что-то знают о data science.

В этом случае DS может сделать модуль обработки данных, скачать алгоритм в виде pkl и создать готовый исполнительный файл, который принимает на вход json-запрос и выдает ответ в том же json, что и на выходе.

Отдельно о тестировании: уже при создании модели важно продумать будущие AB-тесты, выбрать правильную целевую метрику и понять экономический эффект модели.



Пять Мифов О Data Science

Надеюсь, что этим постом я раскрыл некоторые проблемы, с которыми сталкиваются начинающие специалисты по данным, и кому-то он поможет. В следующих постах я остановлюсь на некоторых мифах и домыслах более подробно.

С какими мифами вы сталкивались чаще всего?


Немного о нас: Финтех-холдинг ID Finance специализируется на науке о данных, кредитном скоринге и небанковском кредитовании.

Компания развивает бренды MoneyMan, AmmoPay, Solva и Plazo в России, Испании, Казахстане, Грузии, Польше, Бразилии и Мексике.

R&D-центр ID Finance расположен в Минске.

Учредителями компании являются экс-топ-менеджеры Deutsche Bank и Royal Bank of Scotland Александр Дунаев и Борис Батин.

Среди инвесторов ID Finance — венчурный фонд Emery Capital. В 2018 году компания заняла 36-е место в рейтинге самых быстрорастущих компаний Европы по версии Financial Times. С 2012 года активные компании ID Finance профинансировали кредиты на общую сумму более 275 миллионов евро.

В начале 2018 года общий кредитный портфель компании составлял 77 миллионов долларов США.

.

О нас писали в Forbes, Business Insider, Finextra, Venture Beat, Crowdfund Insider, The Banker и BBC. Также мы публикуемся в русскоязычных СМИ: Forbes, VC, Roem, RusBase и др.

Теги: #python #машинное обучение #карьера #наука о данных #Интеллектуальный анализ данных #Большие данные #Машинное обучение #Карьера в ИТ-индустрии

Вместе с данным постом часто просматривают: