Муниципальные Мойры, Или Что Влияет На Карьеру Чиновника

Привет, Хабр! Как и обещал в предыдущем посте про Почему такой серьезный взлом , мы подготовили следующую историю из этой серии.

На этот раз речь пойдет о хакатоне «Муниципальная Мойра» , который прошел 21-22 апреля в Европейском университете в Санкт-Петербурге.



Муниципальные мойры, или Что влияет на карьеру чиновника



Введение

По совпадению, этот хакатон тоже был необычным и очень похожим наWhy So Serious Hack. Но это неудивительно, учитывая, что организаторы совпадали, а за техническую часть обоих мероприятий отвечал один и тот же человек.

Поэтому мы решили написать об этом сейчас, пока наши воспоминания о хакатоне свежи, а ваши о предыдущем посте.

Но для тех, кто не читал предыдущую статью, повторюсь о формате таких соревнований.

Нет необходимости придумывать и реализовывать идею своего проекта.

Вместо этого конкурентам задают вопросы по анализу данных, на которые они должны ответить в течение 24–48 часов.

Помимо вопросов организаторы предоставляют данные, на которых предлагается обучать модели, прогнозирующие определенные целевые значения.

Зная точность модели на закрытой тестовой выборке, можно проверить гипотезы относительно исходных данных.

Это помогает участникам понять, в каком направлении думать, и может подтвердить полученные выводы при условии, что точность хорошая.

Вы можете проверить качество своих моделей с помощью системы проверки.

Нет, не на Kaggle, как многие из вас, скорее всего, предполагали, а с помощью бота в Telegram! Причем место в таблице лидеров не определяет победителя, а влияет на порядок выступления команд. Лучше скорее - раньше презентация.

Приз присуждается жюри исходя из глубины, качества, оригинальности и разработанности ответа команды на вопрос.

Но об этом я расскажу всем подробнее чуть дальше.



Организация хакатона

Как и в прошлый раз, начнем с нескольких слов о том, как был организован хакатон.

Мероприятие состоялось в здании Европейского университета.

К сожалению, обозначенных мест для ночлега не было, но поскольку хакатон длился 30 часов, это не было большой проблемой.

На площадке тоже не было полноценного питания, но организаторы предоставили комнату с чаем, кофе, пирожками и печеньем.

Это не похоже на описание топового хакатона, но зная нынешнюю непростую ситуацию в ЕУСПб, им всё это можно простить.

Призовой фонд составил 100 000 рублей, и получить его могла только одна команда.



Случай и решение

Команда Центра Res Publica ЕУСПб, организующая мероприятие, проводит исследование качества муниципального управления и его динамики в России с 2007 по 2018 год. Вот и участникам хакатона пришлось ответить на вопрос, от чего зависит карьерный путь глав городов и районов.

Предполагается, что отставка главы муниципального образования является показателем неэффективности его работы, а продвижение по карьерной лестнице на более высокие уровни – наоборот. На наш взгляд, это логично и так должно быть на самом деле (спойлер: нет).

В качестве данных для прогнозирования карьерных траекторий чиновников было предложено использовать их биографические данные, а также различные показатели из базы данных муниципальных образований.

Например, общее состояние дорог или количество больниц.

Участники имели опыт работы главами муниципалитетов за 18-летний период. Каждая запись в датасете рассказывала о состоянии карьеры руководителя в конкретном году, а именно содержала следующие поля: год и регион работы, муниципалитет, должность, пол и возраст человека, уровень и сфера образования, текущее состояние карьеры и другие.

Данные были анонимизированы, но при желании их можно было восстановить.

Это считалось нарушением правил и каралось дисквалификацией.

Самое интересное поле здесь — статус карьеры, поскольку именно это поле и нужно было спрогнозировать.

Состояние карьеры руководителя описывается не только тремя значениями («назначен на должность», «работает», «уволен с должности»), что логично было бы предположить, но и гораздо более разнообразным и детальным набором.

Например, глава Минобороны мог уйти в отставку по состоянию здоровья или в связи с возбужденным против него уголовным делом.

Всего таких категорий было 13. Типичный пример карьерной траектории отделения:

Муниципальные мойры, или Что влияет на карьеру чиновника

Поскольку некоторые читатели предыдущего поста просили подробнее о технических моментах, мы немного о них расскажем.

Сначала уточню, что прогнозировать карьерные траектории нужно было не на будущие годы, а на других кандидатов, живущих параллельно.

Но, на наш взгляд, это гораздо более скучная задача, чем предсказание будущего.

Однако правила устанавливает организатор.

Мы остановились на модели «один против остальных», то есть когда для каждого класса строим отдельный классификатор.

В качестве ответа на образец выбираем тот класс, модель которого более уверена в принадлежности примера этому классу.

Немного изучив данные, мы заметили частоту появления категории «победа на выборах» в зависимости от года.

На картинке отчетливо видны пики каждые пять лет. И это кажется вполне логичным, если большинство кандидатов зачастую выбираются на ближайшие 5 лет.

Муниципальные мойры, или Что влияет на карьеру чиновника

Далее мы решили посмотреть, как распределяются категории в зависимости от региона.

Чтобы получить картинку ниже, мы сначала нормализовали все по столбцам, а затем по строкам.



Муниципальные мойры, или Что влияет на карьеру чиновника

Из карты попаданий выше вы можете видеть, что некоторые ячейки сильно выделяются по сравнению с другими.

Например, в Удмуртской Республике должности ликвидируются гораздо чаще, чем в других регионах.

А в Ярославской области кандидаты часто переходят на другую работу.

В связи с наличием таких особенностей мы решили добавить все эти возможности, то есть класс частот по регионам.

И это действительно помогло: давайте посмотрим на важность функций в наших моделях и увидим, что частота играет самую важную роль.



Муниципальные мойры, или Что влияет на карьеру чиновника



Муниципальные мойры, или Что влияет на карьеру чиновника

Вот примеры для двух классов: переназначение и выход на пенсию соответственно.

Еще одним интересным техническим моментом можно назвать то, что дополнительная база данных с данными по муниципалитетам весила более 30ГБ, поэтому ее можно было либо разобрать, либо загрузить на сервер, где было достаточно оперативной памяти для обработки.



Муниципальные мойры, или Что влияет на карьеру чиновника

Эта база данных содержала много различной информации о муниципалитетах.

Однако его применение не помогло улучшить результат. Как я уже упоминал выше, тестирование проводилось с помощью специального телеграмм-бота.

Участник отправляет ему свои ответы, а бот возвращает значение оценочной метрики и позицию команды в таблице результатов.

То есть никто не знает результатов других команд. Например, вот как это выглядело на этом конкурсе:

Муниципальные мойры, или Что влияет на карьеру чиновника

Однако, если очень хочется, то можно немного схитрить, отправив в систему свой лучший результат и понять, насколько плотно команда ниже дышит вам в затылок.

Я хотел бы упомянуть, почему мы получаем довольно маленькое значение скорости F1. Все дело в том, что в классах сильный дисбаланс.

Одних очень много, других мало.

Поэтому, предсказывая многие классы с хорошей точностью, а некоторые, которые появляются в тесте всего пару раз — плохо, мы не получим впечатляющего значения метрики.

Кто-то может начать плеваться, мол, а почему бы не провести такое соревнование по кагглу? Согласен, Kaggle — довольно хорошая система.

Однако тестирование с ботом выглядит не так вульгарно и заурядно, что придает соревнованию необычность.

И наверное многие заметили, что в хакатоне приняли участие всего 6 команд. И это очень печально, ведь хакатон рекламировался в пабликах и различных чатах, но пришло всего около 20 участников.

Так что победа не была особым испытанием, но раз мы к этому пришли и накопили некоторый опыт, почему бы не поговорить об этом?

Результаты

По итогам хакатона состоялись презентации команд. Мы были первыми, кто представил свою работу (слайды можно посмотреть здесь ).

Из минусов: жюри отметило, что мы говорили слишком техническим языком и некоторые термины были понятны только в контексте.

Подумайте об этом как при создании слайдов, так и при репетиции выступления.

Сразу после рассказа мы поняли одну важную ошибку.

Несмотря на то, что победитель не определяется по положению в таблице лидеров, в этот раз мы почему-то слепо следовали цели: максимизировать скорость, и не потратили очень много времени на составление полноценного ответа на вопрос: «Что делатьЭ» что тебе нужно сделать, чтобы получить повышениеЭ» Жюри также считает, что не получило убедительного ответа, но, судя по их обзор , другие результаты также будут полезны.

Кстати, это наш первый хакатон, после которого нас попросили открыть доступ к коду и кратко описать решение и используемые возможности.

Приятно, что результат может помочь кому-то в исследованиях в этой области.

В качестве небольшого и очевидного вывода друзья: никогда не забывайте главную цель, которую вы преследуете, несмотря на уровень и масштаб мероприятия.

Пост написан совместно с авгайдашенко .

Теги: #Машинное обучение #Хакатоны #наука о данных #анализ данных #Открытые данные #кейс #Академический университет

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.