Привет, Хабр! Приглашаем вас на бесплатный демонстрационный урок «Современные большие данные, анализ и оптимизация производительности распределенных приложений» .Теги: #Большие данные #ml #bigdata #Инженерия данных #spark #Промышленное машинное обучениеА также в этой статье мы решили рассказать вам, как развивается ситуация на рынке специалистов Data Science и конкретно в Big Data и что вас ждет на курсе по промышленному машинному обучению.
В крупных компаниях наука о данных с точки зрения прогнозирования соответствия уходит в прошлое.
Первое, что стоит отметить, это то, что джуниоров сейчас в избытке, и среди компаний наблюдается тенденция искать специалиста Middle/Senior, давать ему время на изучение своей инфраструктуры и сразу поручать ему боевые задачи.
При этом значительная часть начинающих специалистов по-прежнему считает, что дата-сайентисту достаточно готовой реализации модели — обучите ее на каких-то данных и отдайте дата-инженеру, а там как-нибудь разберутся.
.
Но сейчас всё движется к тому, что сами процессы обучения и валидации настолько хорошо структурированы и понятны, что сделать фит-прогноз сможет даже неспециалист. Получается, что люди, которые только и умеют это делать, в налаженных конвейерах не очень-то и нужны.
Кроме того, существует проблема подготовки специалистов, которые обладали бы знаниями в инженерной сфере хотя бы на уровне птичьего полета.
В классических курсах мало информации по этой части, в том числе и потому, что сразу развернуть необходимую инфраструктуру сложно, а задачи на Kaggle этого не требуют. Когда вы приходите в крупную компанию, вас встречает кластер из десятков петабайт, где нужно писать распределенные алгоритмы на фреймворках, отличающихся от стандартного набора Data Scientist. С одной стороны, это многих пугает, но с другой стороны, те, кто это понимает хотя бы на базовом уровне, имеют преимущество при приеме на работу.
Альтернативная специальность для специалистов по данным и инженеров-программистов.
Хорошо «Промышленное машинное обучение на больших данных» предлагает симбиоз навыков специалиста по данным и инженера по данным.
Как правило, такие специалисты требуются в крупных компаниях с масштабным цифровым продуктом, где необходимо работать с потоковыми данными.
Соответственно, освоить этот профиль могут как специалисты в области машинного обучения, так и те, кто имеет опыт разработки программного обеспечения.
Причем второй будет несколько проще, потому что Basic ML освоить проще, чем полный стек инженерных технологий.
Навыки, необходимые для работы с большими данными и распределенными данными
Короче говоря, вам нужно будет знать особенности распределенной обработки данных, освоить фреймворк Spark и изучить все составляющие производства.Все это (и немного больше) мы упаковали в онлайн-курс.
«Промышленное машинное обучение на больших данных» .
Программа длится 5 месяцев и состоит из 9 модулей:
- Модуль 1 посвящен первоначальным знаниям, необходимым для освоения дальнейшей программы.
Быстрая итерация ML: какие модели, метрики и виды обучения , как мы обучаем модели, всё измеряем, валидируем и делаем выводы из того, что получаем.
Сюда мы также включили Урок Скалы .
Хотя вы можете взаимодействовать с большими данными с помощью платформы Spark на Python, мы все же предлагаем ознакомиться со Scala, чтобы вы могли взаимодействовать со Spark через его собственный API. В конце модуля вы получите домашнее задание по Scala.
- В модуле 2 вы познакомитесь с технические основы распределенной обработки данных .
Вы узнаете о хранении, о том, как развивались параллельные алгоритмы и какие менеджеры ресурсов доступны в таких распределенных системах.
Начните работу со Spark и сделайте домашнее задание по этому поводу.
- В модуле 3 мы начинаем погрузиться в распределенное машинное обучение .
Мы показываем, как модели обучаются в распределенной парадигме в Spark и как выбирать гиперпараметры.
Те.
Мы переносим опыт локальных вычислений, имеющий отношение к специалистам по данным, в распределенную парадигму.
- Модуль 4 посвящен потоковая обработка .
В первую очередь с этим полезно ознакомиться тем, кто занимался анализом конкурентных данных или работал в условиях ограниченных ресурсов.
Эти навыки более актуальны для работы в крупных компаниях, где существует своего рода непрерывный поток входящих данных, которые необходимо обрабатывать, хранить, сохранять и оперативно применять с помощью ML.
- Цель Модуля 5 – научить вас сформулировать долгосрочные и краткосрочные цели проекта ML .
Вы поймете, как достичь этих целей и измерить результаты.
Пара уроков посвящена именно тому, как проводить A/B-тестирование.
- Модуль 6 отвечает на вопросы о том, как и зачем обучать модели.
Ты выучишь, как развернуть модели в вашей инфраструктуре : обертка, версия, воспроизведение, обслуживание и т. д. Все это для больших данных и распределенной парадигмы.
- Модуль 7 зарезервирован для Питон .
Вы освоите различные практики: как это написать в продакшене и как это все обернуть, как вставить модель на сервер, сделать для нее API, упаковать в контейнеры и развернуть на примере облачных систем типа Амазонка.
- Мы выделили модуль 8 для продвинутых тем.
Давайте разберемся здесь, как запустить нейронные сети в производстве , обучение с подкреплением, закончим модуль повышение градиента , где вы узнаете, как запустить его распределенно в кластере.
- Модуль 9 посвящен проектная работа .
Здесь вам доступны два варианта:
Специальность, которую предоставляет данная программа, является не только самой прикладной, но и с каждым годом будет становиться все более перспективной.
- Вы можете взять свое рабочее дело, над которым сейчас работаете.
Дальше вы выполняете задачу от начала до конца: начиная с данных, которые поступают потоком или загружаются в виде набора данных, и заканчивая результатом, который ваши модели предоставляют в виде сервиса, загрузки и т. д.
- Вы можете сделать обучающий проект: систему рекомендаций на базе базы данных OTUS.
Это также связано с тем, что все больше цифровых продуктов делают упор на обработку данных и все чаще от специалистов требуется не только обучение модели, но и правильная подготовка ее к производству.
Если вас интересует сфера промышленного МО, первые шаги в этом направлении вы сможете сделать 19 октября на демо-уроке.
«Вывод моделей ML в промышленную среду на примере онлайн-рекомендаций» , который проведет управляющий директор Сбербанка Дмитрий Бугайченко.
Поскольку класс предназначен для профессионалов, имеющих опыт работы с данными, для регистрации вам потребуется пройти вступительное тестирование .
Сам курс «Промышленное машинное обучение на больших данных» стартует 30 октября .
Вы можете ознакомиться с преподавательским составом и программой Здесь .
Увидимся в классе!
-
Тонеры От А До Я
19 Oct, 24 -
Это Жизненно Важное Время Для Кабеля Hdmi.
19 Oct, 24 -
Экскурсия В Подвал
19 Oct, 24 -
Цб Рф Тоже Частный Магазин?
19 Oct, 24