Как Стать Data Science, Если Тебе За 40 И Ты Не Программист

Бытует мнение, что стать дата-сайентистом можно только имея соответствующее высшее образование, а еще лучше — ученую степень.

Однако мир меняется, технологии становятся доступны простым смертным.

Возможно, кого-то удивлю, но сегодня любой бизнес-аналитик способен освоить технологии машинного обучения и добиться результатов, которые могут конкурировать с профессиональными математиками, а может быть, и лучше.

Чтобы не быть голословным, расскажу свою историю — как из экономиста я стал аналитиком данных, получив необходимые знания посредством онлайн-курсов и участия в соревнованиях по машинному обучению.



Как стать data science, если тебе за 40 и ты не программист

Сейчас я ведущий аналитик группы больших данных в QIWI, но три года назад я был довольно далек от науки о данных и слышал об искусственном интеллекте только из новостей.

Но потом все изменилось, во многом благодаря Coursera и Kaggle. Итак, обо всем по порядку.



Обо мне

Я экономист и некоторое время работал бизнес-консультантом.

Моя специализация — разработка методологии бюджетирования и отчетности для последующей автоматизации.

Проще говоря, речь идет о том, чтобы сначала построить нормальный процесс, чтобы потом автоматизация могла дать результаты.

3 года назад, в 42 года, когда я почувствовал, что от своих успехов в консалтинге начинаю становиться бронзовым, я начал задумываться о необходимости перемен.

О вашей следующей карьере.

У меня уже был опыт, как начать карьеру с нуля (в 30 лет я променял спокойную жизнь экономиста на консалтинг), поэтому перемены меня не испугали.

Это приходит на ум не сразу, но когда вдумаешься, становится очевидным, что несмотря на то, что я уже проработал 20 лет, до пенсии у меня еще лет 25 (уже давно понятно, что нужно сосредоточиться на выходе на пенсию в 70 лет или даже позже).

В общем, впереди дорога длиннее той, которая уже пройдена, и хорошо бы пройти ее по действующей специальности.

А это значит, что стоило учиться.

Я тогда работал фрилансером и ради будущего сократил количество проектов и смог выделить достаточно времени на учебу.

Пока я думал о том, куда двигаться дальше, я открыл для себя Coursera. Мне оказался близок западный подход к образованию, когда тебе сначала объясняют смысл, общую идею, а уже потом детали.

В отличие от жестокой советской системы образования, которая предполагает, что вырастут только достойные, они дают шанс таким людям, как я, имеющим пробелы в базовом образовании.

Я начал с курсов по бизнес-аналитике.

Для меня как консультанта это было чрезвычайно полезно.

Эти же курсы помогли мне лучше понять роль технологий искусственного интеллекта для развития бизнеса и, самое главное, увидеть в этом свою роль.

То же самое, что и с другими технологиями – не обязательно, что те, кто разрабатывает новые технологии, будут лучше всех их использовать.

Чтобы технологии действительно помогли бизнесу, важно понимать бизнес.

Знание бизнес-процессов не менее важно, чем понимание технологий машинного обучения, обработки больших данных и т. д. И я погрузился в курсы по науке о данных, статистике и программированию.

С перерывами я прошел за год более 30 курсов на Coursera и больше не чувствовал себя инопланетянином в мире больших данных и машинного обучения.



Каггл

Некоторые курсы рекомендовали Kaggle как отличное место для практики.

Не повторяйте моей ошибки – я пришел туда только тогда, когда уже почувствовал, что накопил достаточно знаний.

Но стоило это сделать на полгода раньше, когда появилось первое понимание, что и как.

Было бы на полгода круче.

Ведь это не просто одна из площадок для соревнований, это лучшая (на данный момент) площадка для освоения машинного обучения на практике, которая полезна как новичкам, так и супер-гуру.

А там вырастаешь, что называется, за день-два – только курсы без практики не дадут такого эффекта.

Моим первым соревнованием было конкурс от банка Сантандер – прогнозирование уровня удовлетворенности клиентов.

Я был новичком и хотел проверить свой уровень знаний в действии.

Я объединил свой опыт работы клиентом банка, навыки анализа бизнес-кейсов и технологии машинного обучения и сделал довольно неплохую модель, с которой вошел в топ-50 публичной таблицы лидеров.

Это намного превзошло мои ожидания от первого конкурса, учитывая, что в нем приняло участие более 5 тысяч человек.

Но не все было так просто.

Тогда я не заслужил счастливого конца.

Среди новичков существует такая распространенная проблема, как «перетренированность модели», с которой я познакомился на практике.

Локальная валидация была плохо организована, я слишком ориентировался на паблик, и в результате в закрытой части теста я упал на 500+ позиций вниз.

Я, конечно, расстроился, но урок прижился: хорошая валидация — основа машинного обучения, и к ней следует относиться серьезно.

Теперь этот компонент — одна из сильных сторон моих моделей.

Несмотря на слабый первый результат, я уверился, что попасть в топ реально; Мне нужно было больше практики и дополнительных знаний.

Для тех, кто не знает, чем хорош Caggle, сообщество готово помочь новичкам преодолеть некоторые узкие места, обсудить идеи и поделиться примерами того, «как это работает».

И что не менее важно, после окончания соревнований есть возможность изучить решения лидеров.

Изучая опыт других, вы сможете добиться быстрого прогресса.

Не обязательно самому наступать на каждую ошибку.

Тут не могу не вспомнить OpenDataScience (ods.ai) — русскоязычное сообщество специалистов по данным.

Обучение машинному обучению, организованное ods, — еще один способ получить более глубокие знания по предмету.

Ну и еще это очень помогает как площадка для общения по любым вопросам.

Если вы думаете о своем будущем в области науки о данных и еще не зарегистрировались в ods, это серьезная ошибка.

Поскольку вакансии на должности Data Scientist довольно часто упоминали ожидания высоких результатов на Caggle, я увидел в этом шанс для себя — помимо получения опыта, есть возможность заполнить пустое резюме более-менее актуальным опытом.

Я начал рассматривать Кэггла как работу, бонусом которой можно было бы стать началом карьеры.

Как только у меня появлялось свободное время, я строил модели на Caggle, и с каждым соревнованием результат становился лучше.

У меня было то, чего не было у большинства участников — умение анализировать бизнес-кейсы и мой опыт консультирования, это очень помогало при построении моделей.

Через полгода я занял 7-е место на очередных соревнованиях от банка Сантандер и заработал свою первую золотую медаль.

Если вы настойчиво стремитесь к определенной цели, вы ее достигнете - в июне 2017 года, спустя чуть больше года моих битв на Caggle, мы вместе с разработчиком из Латвии Агнисом Люкисом выиграли конкурс Сбербанка по прогнозированию цен.

на квартиры в Москве.



Как стать data science, если тебе за 40 и ты не программист

Нашими сильными сторонами были понимание кейса (это сложная задача, к решению которой не следует подходить в лоб, как это делало большинство) и сильная локальная валидация.

Мы закончили соревнование вторыми в публичном зачете, но наша модель почти не пострадала от перетренированности и не сильно просела в личных данных – в финале мы пришли первыми с огромным отрывом.

Эта победа вывела меня в топ-50 глобального рейтинга Kaggle, что привело к появлению предложений о работе.

Изучив варианты, я выбрал банк как место, где есть множество заданий, где можно улучшить свои навыки, а также ощутить всю правду жизни при разработке моделей – тем не менее, на соревнованиях условия скорее тепличные.

Мои планы по карьерному росту были амбициозными и вариант «поработать несколько лет медленно, чтобы вырасти до следующего уровня» не рассматривался.

На работе нужно было много работать, а во вторую смену не забывать о Кэгле.

Это непросто, но кому сейчас легко? И это дало результаты - еще 3 золотые медали и я заработал гроссмейстерские погоны в Кэггле, плюс закрепился в мировом топе (сейчас 23-е место).

В качестве вишенки на торте – 3 место в соревнованиях по банковскому скорингу, чем я профессионально занимаюсь последний год. И, судя по всему, у него это хорошо получилось.

Увы, правда жизни в банке такова, что это также очень консервативный и медленный процесс принятия решений.

Реализация моих моделей продвигалась медленно.

Планов перестроить работу всего банка не было, поэтому проще было, хоть и с сожалением, сменить место работы.

Это оказалось совсем не сложно — благодаря результатам на Caggle поиск не занял много времени, и вот уже несколько месяцев я копаю миллиардные таблицы в QIWI. У нас есть много интересных задач , я уверен, что довольно скоро мы сможем превратить наши данные в прибыль для компании — в этом очень помогает образование экономиста.

Опыт Kaggle здесь также оказался в нескольких случаях успешным.



А теперь о том, как добиться успеха на соревнованиях

Самое главное — понять проблему и найти все драйверы, которые могут повлиять на результат. Чем лучше вы разбираетесь в деле, тем выше ваши шансы на успешную работу.

Любой может сгенерировать сотни или даже тысячи статистических признаков, но придумать те, которые специально предназначены для этой задачи и хорошо объясняют цель, гораздо сложнее.

Инвестируйте в это, и вы быстро окажетесь на вершине.

Стоит применить любой актуальный опыт (деловой, бытовой и т. д.) – он очень помогает. Затем — локальная валидация.

Ваш главный враг — переобучение, особенно если вы используете такую мощную технологию, как повышение градиента.

Я знаю, как психологически сложно перестать фокусироваться на общедоступной таблице лидеров, но если вы не хотите разочарований, правильный ответ — использовать перекрестную проверку, сказать «Нет» отложенной выборке.

Конечно, есть исключения, но даже в проблемах с временными рядами можно добавить перекрестную проверку, значительно повысив надежность модели.

Локальная схема проверки не всегда будет простой, но на нее стоит потратить время как на соревнованиях, так и в реальной жизни.

Наградой станут стабильные модели.

Конечно, нужно хорошо изучить базовые инструменты.

Зная принципы работы разных технологий, вы сможете адекватно подобрать лучший инструмент для решения той или иной задачи.

Что касается табличных данных, то сейчас лидером является градиентное повышение, а именно Lightgbm. Но важно уметь использовать и другие методы, от логрега до нейросетей — и в жизни, и на соревнованиях они лишними не будут. Кстати, лучший способ понять, какие технологии правят сейчас, когда все стремительно меняется, — посмотреть, какие библиотеки используют лидеры конкуренции.

В последние годы благодаря Caggle в мир ворвались многие стоящие технологии.

Гиперпараметры.

Важно знать ключевые гиперпараметры инструментов, которые вы используете.

Обычно параметров, которые необходимо изменить, не так много.

Я считаю, что не стоит тратить много времени на выбор гиперпараметров.

Конечно, найти хорошие гиперпараметры необходимо, но зацикливаться на этом не стоит. Обычно, когда модель появилась, я подбираю более-менее стабильный набор параметров и возвращаюсь к их настройке только ближе к концу, когда другие идеи иссякли.

Здравый смысл подсказывает, что время, потраченное на создание и тестирование новых переменных, библиотек и нестандартных идей, может дать гораздо больший прирост модели, чем улучшение от перехода от хорошего набора гиперпараметров к идеальному.

Если вы делаете ставку на Kaggle как на функцию, которая улучшит ваше резюме, рассматривайте это как работу, и вы не пожалеете об этом.

Мне помогло, поможет и вам.

Ну и еще раз о конкуренции.

Здесь очень высоко, поэтому победить в одиночку очень и очень сложно.

Работа в команде очень полезна; синергия идей позволяет прыгнуть выше головы.

Не стесняйтесь использовать его.



Общий

Ну и немного мотивации в конце.

Прежде всего, я доказал себе, что могу стать специалистом по данным в 44 года.

Рецепт оказался на удивление простым — онлайн-образование, бизнес-ориентированное мышление, эффективность и целеустремленность.



Как стать data science, если тебе за 40 и ты не программист

Теперь я изо всех сил стараюсь убедить своих друзей пойти тем же путем.

Новая цифровая экономика нуждается (и будет нуждаться) в высококвалифицированных специалистах.

Coursera + Kaggle — отличные варианты для начала.

Когда-то Excel был новым и непонятным инструментом (я даже помню, насколько трудными были первые бои с традиционным калькулятором).

Но сейчас никто не сомневается, что разбирающийся в своем деле специалист может выжать из Excel гораздо больше реальной пользы, чем сами разработчики Excel. Пройдет немного времени, и освоение инструментов машинного обучения станет таким же обязательным, как и освоение Excel, так почему бы не подготовиться заранее и не победить конкурентов на рынке труда прямо сейчас? Более того, не нужно бояться конкуренции.

Чем больше деловых людей придет в науку о данных, тем больше будет денег.

Внедрение новых технологий в традиционные отрасли экономики способно ускорить бизнес, а для этого бизнес должен начать понимать возможности, которые сегодня открывают новые технологии.

Фактически любой бизнес-аналитик, освоив несколько курсов, может оказаться в авангарде прогресса и помочь своей компании обогнать консервативных конкурентов.

Надеюсь, мой опыт поможет кому-то принять важное решение.

Если у вас есть вопросы по Kaggle, пишите, буду рад ответить в комментариях.

Теги: #kaggle #datascience #data science #машинное обучение #машинное обучение #карьера #развитие #саморазвитие #обучение #Курс #kaggle #coursera #ODS #открытая наука о данных #Интеллектуальный анализ данных #Машинное обучение #Образовательный процесс в ИТ #Карьера в IT-индустрии

Вместе с данным постом часто просматривают: