Как Я Учился На Специалиста По Данным

Меня зовут Азат Буляккулов.

Я работаю аналитиком рисков в финтех-компании ID Finance. Я начал с аналитики, создавая отчеты для отделов рисков, маркетинга и финансов.

В нашей сравнительно небольшой компании мне приходилось взаимодействовать со всеми отделами.

В результате я смог получить разнообразный профессиональный опыт. Принимал участие в подсчете финансовых резервов, сравнивал показатели в A/B-тестах, сегментировал клиентов для маркетинга и т. д. Менее чем через год работы я занялся разработкой скоринговых карт. И я понял, что хочу лучше понять анализ и обработку данных.



Как я учился на специалиста по данным

Мы использовали классические логистические регрессии для прогнозирования дефолта клиентов.

Одним из источников наших данных являются финансовые операции, к которым клиенты предоставляют нам доступ, если захотят. Работа с ними требовала творческого подхода, поскольку из этой сокровищницы данных можно было извлечь много полезной информации.

Как я позже узнал, этот процесс называется разработкой функций.

Это меня увлекло — я еще больше заинтересовался наукой о данных.

Работая с другими отделами, я увидел, что у нас есть огромные возможности для использования ML. Не последнюю роль в моем интересе к DS сыграло то, что мы разрабатывали тяжелый SAS-e. Он имеет не самый удобный интерфейс и не обладает полным функционалом.

Я хотел работать с более гибким инструментом.

Я понял, что самостоятельное изучение науки о данных, например, на Coursera, требует сильной воли и самодисциплины, которой у меня недостаточно.

Поэтому я стал смотреть не в сторону онлайн-курсов, а «живых» курсов с лекциями, дискуссиями и домашними заданиями.

Я рассказал своему руководителю на работе о направлении, в котором хочу развиваться.

Руководство пошло мне навстречу и предложило оплатить курсы и в дальнейшем перейти в отдел Data Science внутри холдинга.

Итак, я начал выбирать курсы.

Интересно, что на рынке DS-образования доминируют онлайн-курсы.

Даже в Москве нет большого выбора серьезных курсов не в стиле «мы научим вас data science за 21 день».

Я понимал, что качественное обучение должно длиться не менее полугода.

Яндекс САД я не рассматривал, так как он требует полного погружения и ежедневной практики.

Работая полный рабочий день, было бы сложно эффективно усваивать и обрабатывать учебный материал.

Забегая вперед, скажу, что даже на выбранном курсе у меня были проблемы со временем на учебу, не говоря уже о свободном времени.

В итоге я остановился на курсе Data Scientist от одной из популярных школ длительностью полгода: 5 месяцев интенсивного обучения + месяц на написание диплома.



О курсе

Обучение обошлось около 200 000 рублей.

Занятий было много – 3 раза в неделю по 3 часа.

Примерно после каждых 2-х занятий из 3-х было домашнее задание.

Программа была классической и включала базовые методы машинного обучения, рекомендательные системы, распознавание изображений, компьютерное зрение, обработку естественного языка (НЛП), временные ряды.

Плюс было несколько хакатонов и диплом для тех, кто сдал минимально необходимое количество домашних заданий.



Как я учился на специалиста по данным

Занятия проходили на Бауманской, в группу было зачислено 30 человек, но посещало только 15-20. Занималась дважды в будни вечером и в субботу с 10:00 до 13:00. Интересно, что на курсы приходили люди из разных сфер, не обязательно связанных с IT. Да, были front/backend-разработчики, но половина курса была связана с аналитикой продуктов/бизнеса или рисков.

И практически для всех эти курсы означали смену профессии.

Кто-то пришел потому, что вокруг data science сейчас определённый ажиотаж, другим наскучила их текущая деятельность, третьи планируют использовать DS в своей работе.

Практически все сами оплачивали обучение, поэтому уровень интереса был достаточно высоким.



Мои впечатления

Все началось с базовых знаний и навыков программирования на Python и визуализации данных.

Потом мы понеслись галопом и начали проходить один метод машинного обучения за один урок: деревья решений, линейная/логистическая регрессия, случайные леса, бустинг.

Лично я считаю, что для изучения этих классических методов требуется больше времени.



Что мне понравилось

  • Мы изучили практически все современные методы и подходы машинного обучения.

  • По фиче-инжинирингу был отдельный блок — целых 3 урока.

    Это полезная информация, но к сожалению лектор прочитал эту часть не лучшим образом.

  • Часть домашних заданий была взята с соревнований Kaggle. После отправки результатов вы сможете увидеть свою позицию.

    После этого появилась мотивация улучшить свою модель, настроить ее параметры, а не просто делать уроки и «отвали».

  • Были углубленные курсы по рекомендательным системам, НЛП и компьютерному зрению, каждый по 6-8 уроков.

    И, на мой взгляд, там были лучшие лекторы.

  • После блоков по компьютерному зрению и временным рядам было 2 хакатона.

Это оказалось очень полезным упражнением.

Необходимость получить приемлемый результат за минимальное время активизирует и нагружает мозг по полной.

Плюс, работая в команде, видишь подходы других людей.

  • В моем личном кабинете был рейтинг учеников, где я видел прогресс моих одноклассников в выполнении домашнего задания.

    Это было полезно.

    Так как на перемене я подходил к «ботанам» и спрашивал, как они делают то или иное домашнее задание.

  • Преимущество «живых» лекций в том, что вы задаете вопросы во время урока.

  • На занятиях по заданию лектора мы делали небольшие упражнения прямо на Python.
  • Студенческое сообщество – общение с одноклассниками, обмен мнениями, было интересно услышать от других об их мотивации и областях ML, которые их интересуют.


Что мне не понравилось

  • Высокая плотность при рассмотрении основных методов – всего по одному уроку на каждый метод.
  • Вообще мне хотелось бы 2 занятия в неделю, а не 3. Лично для меня учеба была тяжелой, съедающей почти все свободное время.

    Некоторые мои одноклассники, к моей зависти, смогли учиться, одновременно работая.

  • По неизвестным причинам блок НЛП был перенесен и перенесен на компьютерное зрение (КВ).

    В результате в НЛП нам пришлось использовать нейросети, о которых подробнее мы говорили только в части CV.

  • Были преподаватели с крайне низкими педагогическими способностями.

    Кроме того, они не проверяли домашнее задание вовремя.



Как я учился на специалиста по данным

В последнее время сфера применения науки о данных значительно расширилась.



Общий

У меня было 5 месяцев интенсивного обучения, где я достаточно глубоко погрузился в мир ML. Я научился писать приличную обработку данных на Python, визуализировать ее и строить различные модели.

Он также генерировал текст с помощью нейронных сетей и классифицировал изображения.

Думаю, у меня хорошее начало.

Мой наставник-выпускник сказал, что наши знания — на уровне специалиста по данным среднего уровня, а опыт — уровня младшего.

Ну, посмотрим через пару месяцев.

Так как через две недели я перехожу в отдел обработки данных нашей компании.

Теги: #наука о данных #обучение #Большие данные #Машинное обучение #Образовательный процесс в ИТ

Вместе с данным постом часто просматривают: