Как Мы Делаем Новый Учебник Shad По Машинному Обучению

Привет! Это снова Стас Федотов, я возглавляю Школу анализа данных и несколько университетских проектов Яндекса в Москве.

Совсем недавно на ЯК по образованию мы запустили учебник по машинному обучению из SHAD и открыл первые несколько глав.

Мне хотелось бы рассказать, что побудило нас на это и каких принципов мы придерживаемся при написании учебника.



Как мы делаем новый учебник SHAD по машинному обучению

Я очень люблю очные офлайн-лекции, когда погружаешься в атмосферу, сразу даешь обратную связь преподавателю, можешь что-то спросить у соседа и так далее.

Но вам нужно погрузиться в такие занятия на несколько часов и отложить другие дела – даже в тех случаях, когда вы могли бы освоить тему самостоятельно гораздо быстрее.

Я неизбежно думал о том, как облегчить таким людям, как я, изучение науки о данных.

Мы попробовали разные подходы к адаптации лекционных материалов ШАД в онлайн-формат:

  • Мы записываем все лекции ШАД на видео и выкладываем некоторые курсы в открытый доступ — буквально вчера на YouTube появились лекции Виктора Лемпицкого по глубокому обучению: Смотреть
  • Конечно, мы также подошли к созданию онлайн-курсов для разных платформ.

Однако первый вариант не позволяет динамически обновлять контент; нужно каждый раз загружать все видео курса заново, а второй требует полной перестройки курса и совершенно другой подачи материала.

Чувствовалось, что мы могли бы сделать лучше и создать источник, который имел бы несколько свойств:

  • набор основных тем вполне стабилен, один раз молодцы и практически никогда больше не исправляют (помнится, видеографы Яндекса спрашивали меня, почему мы каждый год снимаем лекцию по линейной регрессии, даже если они уже все выучили),
  • легко поддерживать актуальность (постоянно публикуются новые статьи, а перезаписывать видео с такой скоростью дорого и сложно),
  • В материале легко ориентироваться (искать нужную формулу в видео можно в лучшем случае по логарифму).

И из такого описания совершенно отчетливо вырисовываются контуры учебника! Но мы долго за это не брались, потому что нам казалось, что будущее за живым общением с учителем, а текст учебника — это что-то сухое.

Но затем Лена Войт создала чудесный Курс НЛП | Для тебя , и я увидел, что учебник тоже может быть живым и интерактивным.

Помню, как прочитала первую главу «Для тебя» и сказала себе: хочу, чтобы все курсы SHAD были такими! Я, конечно, всем погорячился, но той же осенью начал искать единомышленников для создания учебника по ML. И нам нужно было много единомышленников.

Машинное обучение как область разрослось, и один человек вряд ли сможет написать обо всем, особенно если речь идет о достаточно продвинутых разделах: теории глубокого обучения, графовых сетках, обучении с подкреплением.

Очень здорово, что выпускники, преподаватели и друзья ШАД откликаются и помогают. У нас отличная команда, с нами даже есть ветераны ML-образования, такие как Виктор Кантор.

вкантор и Евгений Соколов.

Время от времени возникают споры по поводу конструкции.

Хотелось бы сделать это максимально понятно, не смешивая разные сущности, чтобы читателю не пришлось гадать, где искать, например, логистическую регрессию (ответ: конечно, в линейных моделях).

Но иногда это непросто.

В качестве примера можно привести многоклассовую классификацию.

Было бы странно выделять ее в отдельную главу: она не содержит таких теоретических понятий, которые важно понимать для освоения курса машинного обучения.

Не говорить об этом вообще тоже неправильно: на практике это встречается слишком часто.

Поэтому мы решили разбить эту тему на две части:

  • Метрики классификации, которые идеально вписываются в главу об измерении качества моделей.

  • Построение мультиклассовой модели, нашедшей свое место в разделе линейных моделей.

Обучение без учителя также заставило нас задуматься о том, как мы обычно воспринимаем МО.

Мы привыкли учиться с учителем и без него, но когда начинаешь перечислять задачи обучения без учителя, на ум быстро приходит кластеризация – что дальше? Допустим, оценка плотности (хотя зачем, но оставим пока этот вопрос).

Обучение представлениям играет очень важную роль в современном машинном обучении, но если отбросить в сторону разложение матриц, как происходит обучение представлений, начиная с word2vec? Решается синтетическая задача (предсказание контекста, поиск по ключам и так далее) — то есть обучение происходит не то чтобы без учителя, разметка просто берется из самих данных.

Так что о самоконтроле пора говорить в первую очередь, а об обучении без учителя – мелким шрифтом.

Конечно, то, что доступно сейчас, — это только начало.

Многие главы пока доступны только студентам SAD и откроются в ближайшие несколько месяцев, другие только создаются, а о некоторых мы еще даже не успели подумать.

Машинное обучение меняется каждый год, и я понимаю, что учебник, который мы имеем в виду, будет полезен только в том случае, если он будет постоянно обновляться с учетом этих изменений.

Некоторые главы придется переписывать с нуля через пару лет. И в этом нам понадобится ваша помощь.

Если у вас есть идеи, чего не хватает или желание помочь людям разобраться в определенной теме, пишите в [email protected] и присоединяйтесь к нашей команде.



Как мы делаем новый учебник SHAD по машинному обучению

Теги: #Машинное обучение #математика #Читальный зал #Учебный процесс в ИТ #учебники #шад #школа анализа данных

Вместе с данным постом часто просматривают: