Курс «Промышленное Машинное Обучение На Больших Данных» — Что Это, Для Кого И Какие Навыки Требует?

Привет, Хабр! Приглашаем вас на бесплатный демонстрационный урок «Современные большие данные, анализ и оптимизация производительности распределенных приложений» .

А также в этой статье мы решили рассказать вам, как развивается ситуация на рынке специалистов Data Science и конкретно в Big Data и что вас ждет на курсе по промышленному машинному обучению.



Курс «Промышленное машинное обучение на больших данных» — что это, для кого и какие навыки требует?



В крупных компаниях наука о данных с точки зрения прогнозирования соответствия уходит в прошлое.

Первое, что стоит отметить, это то, что джуниоров сейчас в избытке, и среди компаний наблюдается тенденция искать специалиста Middle/Senior, давать ему время на изучение своей инфраструктуры и сразу поручать ему боевые задачи.

При этом значительная часть начинающих специалистов по-прежнему считает, что дата-сайентисту достаточно готовой реализации модели — обучите ее на каких-то данных и отдайте дата-инженеру, а там как-нибудь разберутся.

.

Но сейчас всё движется к тому, что сами процессы обучения и валидации настолько хорошо структурированы и понятны, что сделать фит-прогноз сможет даже неспециалист. Получается, что люди, которые только и умеют это делать, в налаженных конвейерах не очень-то и нужны.

Кроме того, существует проблема подготовки специалистов, которые обладали бы знаниями в инженерной сфере хотя бы на уровне птичьего полета.

В классических курсах мало информации по этой части, в том числе и потому, что сразу развернуть необходимую инфраструктуру сложно, а задачи на Kaggle этого не требуют. Когда вы приходите в крупную компанию, вас встречает кластер из десятков петабайт, где нужно писать распределенные алгоритмы на фреймворках, отличающихся от стандартного набора Data Scientist. С одной стороны, это многих пугает, но с другой стороны, те, кто это понимает хотя бы на базовом уровне, имеют преимущество при приеме на работу.



Альтернативная специальность для специалистов по данным и инженеров-программистов.

Хорошо «Промышленное машинное обучение на больших данных» предлагает симбиоз навыков специалиста по данным и инженера по данным.

Как правило, такие специалисты требуются в крупных компаниях с масштабным цифровым продуктом, где необходимо работать с потоковыми данными.

Соответственно, освоить этот профиль могут как специалисты в области машинного обучения, так и те, кто имеет опыт разработки программного обеспечения.

Причем второй будет несколько проще, потому что Basic ML освоить проще, чем полный стек инженерных технологий.



Навыки, необходимые для работы с большими данными и распределенными данными

Короче говоря, вам нужно будет знать особенности распределенной обработки данных, освоить фреймворк Spark и изучить все составляющие производства.

Все это (и немного больше) мы упаковали в онлайн-курс.

«Промышленное машинное обучение на больших данных» .

Программа длится 5 месяцев и состоит из 9 модулей:

  • Модуль 1 посвящен первоначальным знаниям, необходимым для освоения дальнейшей программы.

    Быстрая итерация ML: какие модели, метрики и виды обучения , как мы обучаем модели, всё измеряем, валидируем и делаем выводы из того, что получаем.

    Сюда мы также включили Урок Скалы .

    Хотя вы можете взаимодействовать с большими данными с помощью платформы Spark на Python, мы все же предлагаем ознакомиться со Scala, чтобы вы могли взаимодействовать со Spark через его собственный API. В конце модуля вы получите домашнее задание по Scala.

  • В модуле 2 вы познакомитесь с технические основы распределенной обработки данных .

    Вы узнаете о хранении, о том, как развивались параллельные алгоритмы и какие менеджеры ресурсов доступны в таких распределенных системах.

    Начните работу со Spark и сделайте домашнее задание по этому поводу.

  • В модуле 3 мы начинаем погрузиться в распределенное машинное обучение .

    Мы показываем, как модели обучаются в распределенной парадигме в Spark и как выбирать гиперпараметры.

    Те.

    Мы переносим опыт локальных вычислений, имеющий отношение к специалистам по данным, в распределенную парадигму.

  • Модуль 4 посвящен потоковая обработка .

    В первую очередь с этим полезно ознакомиться тем, кто занимался анализом конкурентных данных или работал в условиях ограниченных ресурсов.

    Эти навыки более актуальны для работы в крупных компаниях, где существует своего рода непрерывный поток входящих данных, которые необходимо обрабатывать, хранить, сохранять и оперативно применять с помощью ML.

  • Цель Модуля 5 – научить вас сформулировать долгосрочные и краткосрочные цели проекта ML .

    Вы поймете, как достичь этих целей и измерить результаты.

    Пара уроков посвящена именно тому, как проводить A/B-тестирование.

  • Модуль 6 отвечает на вопросы о том, как и зачем обучать модели.

    Ты выучишь, как развернуть модели в вашей инфраструктуре : обертка, версия, воспроизведение, обслуживание и т. д. Все это для больших данных и распределенной парадигмы.

  • Модуль 7 зарезервирован для Питон .

    Вы освоите различные практики: как это написать в продакшене и как это все обернуть, как вставить модель на сервер, сделать для нее API, упаковать в контейнеры и развернуть на примере облачных систем типа Амазонка.

  • Мы выделили модуль 8 для продвинутых тем.

    Давайте разберемся здесь, как запустить нейронные сети в производстве , обучение с подкреплением, закончим модуль повышение градиента , где вы узнаете, как запустить его распределенно в кластере.

  • Модуль 9 посвящен проектная работа .

    Здесь вам доступны два варианта:

  1. Вы можете взять свое рабочее дело, над которым сейчас работаете.

    Дальше вы выполняете задачу от начала до конца: начиная с данных, которые поступают потоком или загружаются в виде набора данных, и заканчивая результатом, который ваши модели предоставляют в виде сервиса, загрузки и т. д.

  2. Вы можете сделать обучающий проект: систему рекомендаций на базе базы данных OTUS.
Специальность, которую предоставляет данная программа, является не только самой прикладной, но и с каждым годом будет становиться все более перспективной.

Это также связано с тем, что все больше цифровых продуктов делают упор на обработку данных и все чаще от специалистов требуется не только обучение модели, но и правильная подготовка ее к производству.

Если вас интересует сфера промышленного МО, первые шаги в этом направлении вы сможете сделать 19 октября на демо-уроке.

«Вывод моделей ML в промышленную среду на примере онлайн-рекомендаций» , который проведет управляющий директор Сбербанка Дмитрий Бугайченко.

Поскольку класс предназначен для профессионалов, имеющих опыт работы с данными, для регистрации вам потребуется пройти вступительное тестирование .

Сам курс «Промышленное машинное обучение на больших данных» стартует 30 октября .

Вы можете ознакомиться с преподавательским составом и программой Здесь .

Увидимся в классе!

Теги: #Большие данные #ml #bigdata #Инженерия данных #spark #Промышленное машинное обучение
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.