«Футбол В Цифрах»: Как Аналитика Может Улучшить Ситуацию С Футболом В России

Привет, Хабр! Меня зовут Владимир Герингер, я автор проекта» Футбол в цифрах В нем я собираю футбольную статистику, анализирую данные, рисую закономерности и рассказываю аудитории о самом интересном в виде коротких заметок и подробных статей.

Данные — это мое хобби, я собрал их достаточно, чтобы сделать выводы об основных проблемах.

российского футбола и предложить решения.



«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Анализ показывает, что футболисты рождаются в первые 3 месяца года: январь, февраль, март. Нигерия склоняется к декабрю.

В Англии футболисты рождаются равномерно в течение года.

Моя основная работа — аналитик в фармацевтической компании.

Я пришел в индустрию 10 лет назад в качестве медицинского представителя.

Большинство моих коллег начинают с этой позиции, потом ищут более узкие специализации.

Я выбрал аналитику: для меня истина в цифрах.



«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России



Владимир Герингер
Автор проекта «Футбол в цифрах» Собираю данные о юношеском, юношеском и взрослом футболе.

В юношеском спорте я ищу данные именно из России: меня интересует, как происходит переход из юношеского футбола в юношеский, из юношеского во взрослый.

И я уже изучаю мировые тенденции в разных странах в отношении взрослого футбола.



Как я собираю данные: от парсеров до переписки

Большой объем информации из открытых источников я собираю автоматически.

Для этого я написал на Python несколько специальных парсеров, использую их и две библиотеки: Selenium и BeautifulSoup.

   

def get_playerinfo(player, main, players_dict, playersinfo_dict, assists_dict): number = int(player.div.string) player_country = player.span.get('title') shortname = player.a.string if shortname is None: shortname = player.a.contents[0] shortname = shortname.strip() link = re.search('/\S+/', player.a.get('onclick')) if link is None: return [np.nan, number, np.nan, shortname] + [np.nan] * 13 + [player_country] player_link = flashscore + link[0] name, role, bd_date, bd_strmonth = get_playerinfo_dict(player, shortname, player_link, playersinfo_dict) id_player = get_idplayer(name, players_dict) events = player('div', class_='icon-lineup') goals, assists, penalties, yc, rc, autogoals, starttime, endtime, playtime = get_time_event(main, events) assists = assists_dict.get(shortname, 0) return [role, number, name, shortname, id_player, starttime, endtime, playtime, goals, assists, yc, rc, penalties, autogoals, player_link, bd_date, bd_strmonth, player_country]

Некоторые данные о российских футболистах, особенно юношеских и молодёжных лигах, мне пришлось собирать вручную.

В отличие от взрослых футболистов, рост, вес и другие физические характеристики которых легко найти в открытых источниках, информация о юношах нигде не публикуется.

Никто, кроме меня, не собирает эти данные.

Мне пришлось лично искать в социальных сетях около полутора тысяч игроков молодёжной лиги России, писать им и уточнять их рост, вес, кто левша, кто правша, кто на какой позиции и в в каком городе они живут. Все эти данные имеют значение: я сам левша и понимаю, что такие игроки вносят разнообразие в игру.

Если в команде 25 правшей, то на левом фланге ее будет постоянно разрывать, и команда просто не победит.

«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Анализ ног футболистов, в частности количества левшей по командам Кроме того, необходимо обновить информацию об игроках до 18 лет. Молодые люди еще продолжают взрослеть и одновременно переходят в следующую возрастную лигу: из юношеского футбола в юношеский, из юношеского во взрослую.

Недавно я собрал данные о молодых людях 2006-2007 годов рождения; они очень скоро перейдут в следующую лигу, поэтому аналогичная работа предстоит на очереди тем, кто на год-два моложе.

Я хочу собрать в одну базу данных антропометрию футболистов разного возраста и разных стран: это данные о 55 тысячах человек.



Что мне делать с данными потом?

В таблице Excel было целых 65 столбцов данных.

Я конвертирую их, загружаю в облако Microsoft Azure и работаю с данными с точки зрения анализа и поиска закономерностей.

Облачное хранилище было для меня самой сложной задачей с технической точки зрения.

Excel закончился на миллионной строке, и нужно было решить, какую систему использовать дальше.

Для меня было важно иметь возможность подключиться откуда угодно и провести анализ.

Я сделал несколько пробных версий системы в Яндекс.

Облаке, Amazon и Azure и остановился на последней.

Две с половиной недели я загружал данные в систему и разбирал серверную версию.

Поначалу скрипт тормозил из-за особенностей синтаксиса.

Мне иногда приходилось на лету изучать особенности синтаксиса MySQL и искать их в Google и на тематических форумах.

Если бы у меня были средства на разработку проекта, все бы пошло быстрее, но я выбрал самый экономичный вариант. Я использую Tableau для визуализации данных.

На рынке много продуктов, но я привык к Tableau на своей основной работе и решил использовать ее для хобби.

Это информативная и удобная программа, позволяющая сэкономить время и ресурсы.

Работать с ним проще, чем программировать на Python и настраивать каждый параметр, хотя некоторые расчеты требуют настройки.

Графики должны быть простыми и понятными аудитории.

Любой неожиданный инсайт необходимо визуализировать, чтобы люди без сомнения поняли, о чем идет речь, и Tableau предоставляет такую возможность.



Зачем вам знать, сколько левшей в сборных мира?

В детстве и юности я серьезно занимался футболом в течение 12 лет: получив травму, не смог продолжать играть, но интерес к теме остался.

Еще когда я играл, я сталкивался с практикой, когда тренеры отбирали подростков в клубы по их физическим характеристикам.

Причем смотрят как на игроков, так и на старших родственников, считая, что чем крупнее игрок, тем больше шансов на победу.

Мой анализ показал, что такой подход в корне неверен.

Я сравнил юношеские, юношеские и взрослые клубы на основе антропометрии футболистов и их ролей в команде (нападающие, полузащитники, защитники, вратари).

Никакой корреляции между физическими параметрами и количеством забитых и пропущенных мячей нет. Из-за того, что в российском футболе слишком стремятся к антропометрии, тренеры часто упускают из виду детей, у которых выше способность реагировать на ситуацию на поле.

А это не лучшим образом сказывается на качестве игры: ведь в футбол играют не столько ногами, сколько головой.

Клубы, которые не следуют этому обычному шаблону, обычно добиваются лучших результатов.



«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Один из рейтингов основан на весе вратарей.

Вратари больше, чем другие игроки, зависят от своего веса, так как им часто приходится играть на выходах, буквально вынося соперников, а вратарю с небольшим весом сделать это будет сложно.

Итак, разница в весе вратарей составляет 15 кг.

Что никак не влияет на пропущенные.

Есть и характеристики, между которыми невозможно установить связь.

Например, вообще нет корреляции между антропометрическими данными и гонорарами игроков.

Кроме того, доходы футболистов различаются в сотни раз даже внутри одной команды.

Это не тот отдел компании, где есть диапазон зарплат: бывает, что один игрок получает в месяц сумму, сравнимую с зарплатой офисного работника, а гонорары его товарища по команде исчисляются миллионами.

Западные футбольные клубы уже часто работают с аналитическими отделами, в том числе изучающими финансовые показатели.

Например, Кевин Де Брюйне, атакующий полузащитник «Манчестер Сити», недавно установил влияние своей игры на доходы команды: в результате его зарплата была увеличена вдвое за период в 5 лет.

Не диванная аналитика: что еще показали данные?

Моей аудитории интересно выделять отдельные личности, смотреть на индивидуальные данные футболистов: это повышает имидж клубов и каждого игрока лично.

Как аналитик, мне нравится выявлять тенденции высокого уровня (по странам, по лигам) и описывать их в виде графиков (например, процент опасных атак).

Например, в Англии, Германии, Франции и Испании во всех дивизионах принят аналогичный стиль игры; внутри страны практикуют примерно одинаковый футбол с одинаковым процентом опасных атак.

В России Премьер-лига и Национальная лига различаются по манере игры, поэтому говорить о едином стиле сложно.

Мне интересно, чем одна страна отличается от другой.

В начале проекта я смотрел на количество игроков на разных позициях в разных командах.

Состав команды влияет на стиль игры.

Например, в таких разных странах, как Словения и Нигерия, принят стиль игры без центра поля, со слабыми защитниками, а количество опасных атак достигает 80%.

В России наименьшая доля злоумышленников – около 20%.

В то же время в странах с более успешными командами процент нападающих гораздо выше, и это влияет на качество игры.



«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

У нас явный перекос в сторону полузащиты, тогда как в Бельгии, Италии, Испании, Англии и так далее доля защитников и полузащитников примерно равна, а доля нападающих выше, чем в России.

Что касается нашей молодежной лиги, то у некоторых клубов показатели отличались от других, и был дисбаланс.

Однако это достояние не столько конкретной команды, сколько российской тренерской школы.

Я написал руководству клубов и попросил обратить внимание, но они мне пока не ответили.

Мне также очень интересно посмотреть, на каком уровне находится наш футбол по сравнению с другими странами.

Результаты наших клубов в последнее время оставляют желать лучшего, и мне хотелось проанализировать, почему это происходит. Российский футбол страдает от той же проблемы, что и многие другие отрасли страны.

Большинство футбольных клубов финансируются правительством и крупными полугосударственными компаниями, а те, кто не имеет такой поддержки, быстро оказываются в финансовых трудностях.



«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Посмотрим, сколько команд приняло участие в сезонах, начиная с 15/16. Именно так мы оцениваем обновления лиг и пытаемся сравнить их с результатами команд на международной арене.

Я проанализировал количество клубов, прошедших через разные дивизионы в разных странах: в Англии 4 дивизиона, в Германии – 3, в России РПЛ и ФНЛ.

За последние 5 сезонов в России играло столько же команд, сколько и в Англии, но не все из них находятся в высшей лиге.

При этом история некоторых британских клубов насчитывает десятки и сотни лет: они не исчезают, не разоряются и играют, хотя и не всегда в высших эшелонах.

Возьмите «Фулхэм», старейший футбольный клуб Лондона.

Она существует с 19 века и все это время то входила, то выходила из Премьер-лиги, но не прекращала свою деятельность.

У нас этого практически нет; многие клубы быстро разоряются после попадания в высшую лигу.



О планах на будущее

Проект «Футбол в цифрах» — это не работа, а хобби, хотя со временем в планах его монетизировать.

В 2022-2023 годах планирую улучшить данные InStat и Wyscout по ТТД (технико-тактическим действиям) и данные отслеживания.

Эта информация позволяет видеть движения игрока во время матча и используется для более расширенной аналитики.

Меня интересуют раскладки по каждому игроку, ряд метрик по каждому матчу, данные о координатах поля: так можно проанализировать, что происходит в голове тренера команды соперника.

Меня интересуют около 30 стран: сюда входят страны Европы, Латинская Америка и Китай.

Но все это, конечно, требует времени и денег.



«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Итак, на графике представлена диаграмма разброса, на которой есть три оси: Y — голы на команду X — отборы на команду Размер пузыря/шара — процент опасных атак.

Эти метрики описывают как атакующие, так и защитные действия.

Их сочетание говорит красноречивее всяких слов о качестве футбола.

Моя работа может стать основой для аналитики, адресованной профессиональной аудитории: футбольным клубам, спортсменам и тренерам.

Люди из Российского футбольного союза уже интересовались подробными шорт-листами и закономерностями в юношеском и юношеском футболе.

Надеюсь, что мои достижения смогут быть использованы для изменения стиля тренировок в отечественных клубах.

Вполне возможно, что они станут основой научных исследований.

Я очень увлечен тем, чем занимаюсь: часто сижу до полуночи и с интересом что-то доделываю.

Конечно, сбор и подготовка данных занимает много времени, но это большая часть успеха.

Иногда нужно долго думать, как подключить данные, всегда чего-то не хватает, но для меня это еще одна возможность учиться и развиваться.

Год назад я прошла курс Наука о данных из Нетологии.

Это очень помогло расширить мой кругозор и понять, как работать с информацией.

Я очень надеюсь, что со временем мой проект превратится во что-то полезное не только для любителей, но и для профессионалов, и что кто-то захочет использовать мой труд для развития футбола.

Теги: #Сделай сам или сделай сам #аналитика #Визуализация данных #наука о данных #данные #специалист по данным #Инженерия данных #анализ данных #ИТ-статистика #анализ данных #графика #футбол

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.