Привет, Хабр! В этом посте я расскажу вам об одном из самых крутых хакатоны с треком DS, который прошел недавно в Санкт-Петербурге.
Ниже — общий обзор, раскрытые нами кейсы и, конечно же, то, как обе команды Австралии смогли стать победителями сразу.
Введение
Это третий пост в нашей серии обзоров хакатонов (первые два читайте здесь: WSSH , МунХак ), и поэтому сразу хотелось бы сказать, что этот хакатон, несомненно, был более масштабным и к тому же больше напоминал хакатон в классическом понимании.То есть были как команды, решающие задачи ML с использованием предоставленных данных, так и участники, пришедшие искать финансирование для своих стартапов.
Однако подробнее о предлагаемых треках я расскажу позже.
Организация
Хакатон прошел в начале марта в новом офисе «Газпром нефти» в Санкт-Петербурге.
Но вы также можете участвовать онлайн, представляя свои результаты через Skype.
После регистрации прошла презентация треков, а затем формирование команд. Конечно, всегда лучше подготовиться заранее.
Как минимум потому, что все понимают, в каком темпе работает человек и что он умеет, и не рискуют нарваться на подводные камни.
В идеале также стоит заранее согласовать распределение ролей и структуру проекта.
Например, для задач DS есть популярный учебник по структуре .
Мы еще не использовали его, но обязательно планируем.
Потому что каждый раз в течение пары часов после начала хакатона общий репозиторий превращается в свалку недокументированных скриптов, в которых потом очень и очень сложно разобраться.
После представления задач и сбора команд начался сам процесс разработки.
Стоит отметить, что этот хакатон отличался от других наличием чекпоинтов и лекций на протяжении всех двух дней.
Хоть контрольная и была скорее знакомством с наставниками и жюри, чем отчетом о текущих успехах, в итоге она оказалась очень полезной.
На презентациях время представления результатов было строго ограничено тремя минутами, но поскольку у жюри уже было представление о командах, это было хорошо для всех.
С одной стороны, во время хакатона участники отвлекались на беседы и получали новые идеи от экспертов в этой области.
С другой стороны, в конце не было скучных получасовых выступлений, когда спикер вдруг решил начать со своей биографии.
В целом всё было по делу, за что организаторам огромное спасибо.
Кейсы и решения
Организаторы предложили для участия шесть треков, среди которых были две номинации на лучшее решение в каггл-соревнованиях на датасетах «Газпром нефти» и компании «РобоМед», также был простой кейс от «Газпром нефти» и Центра речевых технологий, и команды также могли представить свой проект в области ИИ, и, наконец, если решение в одном из соревнований kaggle не набрало лучших результатов, мы могли придумать, как его монетизировать и таким образом выиграть номинацию на лучшее продуктовое решение, используя предоставленный набор данных.Как я уже упоминал, в этом хакатоне приняли участие две команды от Академического университета.
Наша команда взялась за оба трека сразу, а одноклассники решили один из них, от РобоМед.
РобоМед предложил участникам решить задачу прогнозирования оттока клиентов по полу, возрасту, диагнозу и анамнезу (жалобам пациентов).
Некоторое время наша команда была первой в таблице лидеров из пятнадцати команд, но затем нас обогнали одноклассники.
Если вдаваться в технические подробности, то сложнее всего была работа с анамнезом.
Не принимать его во внимание вообще было нельзя, поскольку в остальных признаках было много пропусков и необходимо учитывать мнение больного, точно описывающее анамнез.
Особенно при прогнозировании, вернется ли пациент в клинику или нет. Проблемы возникли в основном из-за свободной формы заполнения анамнеза.
Например, было очень много опечаток, с которыми мы боролись регулярными выражениями.
Далее исправленная строка прошла стемминг (это можно представить как приведение каждого слова к исходной форме).
Полученная строка была векторизована с использованием TF-IDF или Bag-of-words. Но, например, мы не создали такую киллер-фичу, как длина строки.
Наши одноклассники подумали об этом, и это оказалось весьма важным.
Кроме того, анализировали как окраску анамнеза (положительная/отрицательная), так и категорию риска заболевания при диагнозе.
В качестве моделей прогнозирования использовались деревья (CatBoost и LightGBM) и метод ближайших соседей.
А еще блендирование, то есть усреднение результатов прогнозирования нескольких моделей.
К сожалению, я не расскажу вам о задаче по данным «Газпром нефти», потому что над ней работала другая часть команды.
Представление результатов
По итогам конкурса мы так и не вышли на первое место по точности прогнозов, поэтому за несколько часов до презентаций нам пришлось срочно решать, как представить результаты в контексте бизнес-модели.И опять же, в этом очень помогли наставники.
Зачастую, когда есть четко сформулированная задача, вам даже не приходится думать о том, где и как будет использоваться результат вашего труда.
Более того, я, как человек далекий от бизнеса, не могу сразу разобраться, как монетизировать полученный алгоритм.
Понятно, что в конечном итоге вы хотите использовать те знания, которые уйдет клиент, чтобы этого не допустить.
Поэтому мы решили, что попробуем выделить причины, по которым клиент может не захотеть возвращаться.
Внезапно самой популярной причиной оттока стало то, что клиента просто вылечили.
Такие выводы мы сделали, когда заболевание считалось нехроническим.
Выявив еще несколько таких кластеров, мы снова пошли к экспертам, чтобы узнать, что гипотетический стартап может делать дальше с такой информацией.
Еще одним интересным моментом было то, что мы даже подсчитали, сколько денег компания может сэкономить, используя такой алгоритм, и это определенно был для меня новый опыт. Кстати, получившиеся слайды можно посмотреть здесь: Робомед , ГПН , презентация одноклассников , и сами презентации с хакатона здесь .
Послевкусие
Теперь хотелось бы отметить небольшой минус, чтобы закончить на позитивной ноте.Это еда, почему-то на хакатонах традиционно возникают проблемы с такой базовой вещью.
Видимо, считается, что натощак лучше думается.
Да, был кофе-поинт, печенье и даже энергетики, но не хватало вкусных обедов и завтраков, приготовленных не из приготовленных на пару емкостей.
Но на сайте были классные капсулы для сна.
Лично я спать в нем не смог, так как из-за формы капсулы нельзя развернуться, но выглядело оно хорошо и было приятно просто полежать 15 минут под легкую музыку.
Еще одной приятной деталью хакатона стали довольно удобные места для работы и мерча в виде наклеек и футболок.
А потом на память осталась куча фотографий, потому что на площадке почти постоянно были фотографы.
И даже два обзорных видео: от организаторов и из Газпром нефть .
Заключение
Кажется, я ни разу не упомянул, кто организовал хакатон, и это обидно.Вот что ребята из Научное руководство , за что им большое спасибо.
Мы прекрасно провели время, и для Санкт-Петербурга хакатон такого уровня определенно достоин подражания.
В общем, хотим большего!
Пост написан совместно с Ребрик .
Теги: #Машинное обучение #Хакатоны #наука о данных #анализ данных #Открытые данные #кейс #СПбАУ #Академический университет
-
Google Анонсирует Project Zero
19 Oct, 24 -
С Чего Начинается Создание Прототипа?
19 Oct, 24