Меня зовут Иван Серов, я работаю в отделе Data Science финтех-компании ID Finance. Data Scientist — достаточно молодая, но очень популярная профессия, окруженная множеством мифов.
В этом посте я расскажу о нескольких заблуждениях, с которыми сталкиваются начинающие специалисты по обработке данных (DS).
DS не обязан знать о бизнесе
Хороший ДС должен не только уметь построить хорошую модель, но и понимать, почему ему следует строить такую модель, и даже говорить, что эта модель в таком случае не нужна.Например, для одного из наших проектов мы сделали модель, которая прогнозировала наличие денег на счете клиента и списывала их по специальному алгоритму.
Но в процессе создания модели мы поняли, что она не нужна: проще немного улучшить алгоритм работы.
Иногда затраты на эксплуатацию ДС значительно превышают доходы от разрабатываемой новой модели.
В этом случае ему следует обсудить необходимость такой модели с руководителем проекта и перейти к чему-то более полезному.
Сложные алгоритмы всегда лучше
XGBoost, LightGBM, Random Forest. Все эти алгоритмы называются первоприоритетными для любой задачи.Многие новички в DS даже не пытаются начать с чего-то более простого.
Однако когда вдруг возникает проблема с разреженными данными, где 10 000 переменных и 20 000 строк, а XGBoost показывает Gini 0,2 (AUROC 0,6), начинаются проблемы.
Например, в этом случае лучше подойдет простая SVM с нелинейным ядром, дающая Джини 0,8. Простые модели иногда работают лучше, чем сложные.
Если хочешь стать крутым DS, иди в большую компанию
Каждый день мы слышим от крупных компаний об их новых проектах.Как искусственный интеллект улучшает один процесс на 10%, другой на 20% и так далее.
После этого у многих может сложиться впечатление, что только в крупных компаниях что-то происходит, а в компаниях поменьше нет интересных проектов и хороших ДС.
К счастью, это не так — поработав в одном из крупнейших банков, который позиционирует себя как digital, могу сказать, что в стартапах есть более интересные проекты.
Скорость реализации проектов в крупных компаниях уже стала притчей во языцех и поводом для мемов.
Например, в банке проект может быть реализован за 3 месяца или полгода, за это время в стартапе вы успеете выполнить несколько проектов.
Вывод: PR крупных компаний – это зачастую просто пиар.
Руководителям проектов платят больше, чем хорошим специалистам
Те, кто перерастает средний уровень, часто сталкиваются с вопросом, куда двигаться дальше.На самом деле есть два варианта — Lead Data Scientist (руководитель группы) и Senior DS. О разнице между уровнями уже написано много (например, Здесь хороший пост от Виктора Кантора), скажу лишь, что зарплата у хороших специалистов может быть гораздо выше, чем у любого тимлида, и отталкиваться нужно только от своих желаний.
Обычно после нескольких лет работы начинается выгорание, все задачи кажутся одинаковыми и приедаются.
Здесь нужно либо искать что-то новое (благо у лидеров рынка, таких как Nvidia, Amazon или Яндекс, всегда что-то есть), либо идти в менеджмент (Lead DS -> Chief DS -> CDO), что многие и выбирают.
DS не должен внедрять модель или тестировать ее результаты.
Многие не согласятся, мол, теперь есть инженеры, которые должны реализовать эти модели.
Но DS все равно должна позаботиться о том, чтобы облегчить работу дата-инженера и как минимум:
- Пишите грамотный код, который легко понять
- Подумайте о кодировании переменных.
Например, LabelEncoder можно легко загрузить в виде файла .
pkl, но частотное кодирование новых данных может стать проблемой.
- Подумайте, как в дальнейшем будут проводиться АБ-тесты (кстати, оценка модели после внедрения в производство в большинстве случаев все равно лежит на том, кто ее разработал)
Также возможно, что модель взаимодействует с вашим сервисом через API, который создан кем-то из ИТ-специалистов, и не факт, что они что-то знают о data science. В этом случае DS может сделать модуль обработки данных, скачать алгоритм в виде pkl и создать готовый исполнительный файл, который принимает на вход json-запрос и выдает ответ в том же json, что и на выходе.
Отдельно о тестировании: уже при создании модели важно продумать будущие AB-тесты, выбрать правильную целевую метрику и понять экономический эффект модели.
Надеюсь, что этим постом я раскрыл некоторые проблемы, с которыми сталкиваются начинающие специалисты по данным, и кому-то он поможет. В следующих постах я остановлюсь на некоторых мифах и домыслах более подробно.
С какими мифами вы сталкивались чаще всего?
Немного о нас: Финтех-холдинг ID Finance специализируется на науке о данных, кредитном скоринге и небанковском кредитовании.
Компания развивает бренды MoneyMan, AmmoPay, Solva и Plazo в России, Испании, Казахстане, Грузии, Польше, Бразилии и Мексике.
R&D-центр ID Finance расположен в Минске.
Учредителями компании являются экс-топ-менеджеры Deutsche Bank и Royal Bank of Scotland Александр Дунаев и Борис Батин.
Среди инвесторов ID Finance — венчурный фонд Emery Capital. В 2018 году компания заняла 36-е место в рейтинге самых быстрорастущих компаний Европы по версии Financial Times. С 2012 года активные компании ID Finance профинансировали кредиты на общую сумму более 275 миллионов евро.
В начале 2018 года общий кредитный портфель компании составлял 77 миллионов долларов США.
.
О нас писали в Forbes, Business Insider, Finextra, Venture Beat, Crowdfund Insider, The Banker и BBC. Также мы публикуемся в русскоязычных СМИ: Forbes, VC, Roem, RusBase и др.
Теги: #python #машинное обучение #карьера #наука о данных #Интеллектуальный анализ данных #Большие данные #Машинное обучение #Карьера в ИТ-индустрии
-
Голос - Обучение На Практике. Первые Выводы
19 Oct, 24 -
Киллер-Функция
19 Oct, 24