Привет, Хабр! Меня зовут Владимир Герингер, я автор проекта» Футбол в цифрах В нем я собираю футбольную статистику, анализирую данные, рисую закономерности и рассказываю аудитории о самом интересном в виде коротких заметок и подробных статей.
Данные — это мое хобби, я собрал их достаточно, чтобы сделать выводы об основных проблемах.
российского футбола и предложить решения.
Анализ показывает, что футболисты рождаются в первые 3 месяца года: январь, февраль, март. Нигерия склоняется к декабрю.
В Англии футболисты рождаются равномерно в течение года.
Моя основная работа — аналитик в фармацевтической компании.
Я пришел в индустрию 10 лет назад в качестве медицинского представителя.
Большинство моих коллег начинают с этой позиции, потом ищут более узкие специализации.
Я выбрал аналитику: для меня истина в цифрах.
Владимир Герингер
Автор проекта «Футбол в цифрах» Собираю данные о юношеском, юношеском и взрослом футболе.В юношеском спорте я ищу данные именно из России: меня интересует, как происходит переход из юношеского футбола в юношеский, из юношеского во взрослый.
И я уже изучаю мировые тенденции в разных странах в отношении взрослого футбола.
Как я собираю данные: от парсеров до переписки
Большой объем информации из открытых источников я собираю автоматически.Для этого я написал на Python несколько специальных парсеров, использую их и две библиотеки: Selenium и BeautifulSoup.
Некоторые данные о российских футболистах, особенно юношеских и молодёжных лигах, мне пришлось собирать вручную.def get_playerinfo(player, main, players_dict, playersinfo_dict, assists_dict): number = int(player.div.string) player_country = player.span.get('title') shortname = player.a.string if shortname is None: shortname = player.a.contents[0] shortname = shortname.strip() link = re.search('/\S+/', player.a.get('onclick')) if link is None: return [np.nan, number, np.nan, shortname] + [np.nan] * 13 + [player_country] player_link = flashscore + link[0] name, role, bd_date, bd_strmonth = get_playerinfo_dict(player, shortname, player_link, playersinfo_dict) id_player = get_idplayer(name, players_dict) events = player('div', class_='icon-lineup') goals, assists, penalties, yc, rc, autogoals, starttime, endtime, playtime = get_time_event(main, events) assists = assists_dict.get(shortname, 0) return [role, number, name, shortname, id_player, starttime, endtime, playtime, goals, assists, yc, rc, penalties, autogoals, player_link, bd_date, bd_strmonth, player_country]
В отличие от взрослых футболистов, рост, вес и другие физические характеристики которых легко найти в открытых источниках, информация о юношах нигде не публикуется.
Никто, кроме меня, не собирает эти данные.
Мне пришлось лично искать в социальных сетях около полутора тысяч игроков молодёжной лиги России, писать им и уточнять их рост, вес, кто левша, кто правша, кто на какой позиции и в в каком городе они живут. Все эти данные имеют значение: я сам левша и понимаю, что такие игроки вносят разнообразие в игру.
Если в команде 25 правшей, то на левом фланге ее будет постоянно разрывать, и команда просто не победит.
Анализ ног футболистов, в частности количества левшей по командам Кроме того, необходимо обновить информацию об игроках до 18 лет. Молодые люди еще продолжают взрослеть и одновременно переходят в следующую возрастную лигу: из юношеского футбола в юношеский, из юношеского во взрослую.
Недавно я собрал данные о молодых людях 2006-2007 годов рождения; они очень скоро перейдут в следующую лигу, поэтому аналогичная работа предстоит на очереди тем, кто на год-два моложе.
Я хочу собрать в одну базу данных антропометрию футболистов разного возраста и разных стран: это данные о 55 тысячах человек.
Что мне делать с данными потом?
В таблице Excel было целых 65 столбцов данных.Я конвертирую их, загружаю в облако Microsoft Azure и работаю с данными с точки зрения анализа и поиска закономерностей.
Облачное хранилище было для меня самой сложной задачей с технической точки зрения.
Excel закончился на миллионной строке, и нужно было решить, какую систему использовать дальше.
Для меня было важно иметь возможность подключиться откуда угодно и провести анализ.
Я сделал несколько пробных версий системы в Яндекс.
Облаке, Amazon и Azure и остановился на последней.
Две с половиной недели я загружал данные в систему и разбирал серверную версию.
Поначалу скрипт тормозил из-за особенностей синтаксиса.
Мне иногда приходилось на лету изучать особенности синтаксиса MySQL и искать их в Google и на тематических форумах.
Если бы у меня были средства на разработку проекта, все бы пошло быстрее, но я выбрал самый экономичный вариант. Я использую Tableau для визуализации данных.
На рынке много продуктов, но я привык к Tableau на своей основной работе и решил использовать ее для хобби.
Это информативная и удобная программа, позволяющая сэкономить время и ресурсы.
Работать с ним проще, чем программировать на Python и настраивать каждый параметр, хотя некоторые расчеты требуют настройки.
Графики должны быть простыми и понятными аудитории.
Любой неожиданный инсайт необходимо визуализировать, чтобы люди без сомнения поняли, о чем идет речь, и Tableau предоставляет такую возможность.
Зачем вам знать, сколько левшей в сборных мира?
В детстве и юности я серьезно занимался футболом в течение 12 лет: получив травму, не смог продолжать играть, но интерес к теме остался.Еще когда я играл, я сталкивался с практикой, когда тренеры отбирали подростков в клубы по их физическим характеристикам.
Причем смотрят как на игроков, так и на старших родственников, считая, что чем крупнее игрок, тем больше шансов на победу.
Мой анализ показал, что такой подход в корне неверен.
Я сравнил юношеские, юношеские и взрослые клубы на основе антропометрии футболистов и их ролей в команде (нападающие, полузащитники, защитники, вратари).
Никакой корреляции между физическими параметрами и количеством забитых и пропущенных мячей нет. Из-за того, что в российском футболе слишком стремятся к антропометрии, тренеры часто упускают из виду детей, у которых выше способность реагировать на ситуацию на поле.
А это не лучшим образом сказывается на качестве игры: ведь в футбол играют не столько ногами, сколько головой.
Клубы, которые не следуют этому обычному шаблону, обычно добиваются лучших результатов.
Один из рейтингов основан на весе вратарей.
Вратари больше, чем другие игроки, зависят от своего веса, так как им часто приходится играть на выходах, буквально вынося соперников, а вратарю с небольшим весом сделать это будет сложно.
Итак, разница в весе вратарей составляет 15 кг.
Что никак не влияет на пропущенные.
Есть и характеристики, между которыми невозможно установить связь.
Например, вообще нет корреляции между антропометрическими данными и гонорарами игроков.
Кроме того, доходы футболистов различаются в сотни раз даже внутри одной команды.
Это не тот отдел компании, где есть диапазон зарплат: бывает, что один игрок получает в месяц сумму, сравнимую с зарплатой офисного работника, а гонорары его товарища по команде исчисляются миллионами.
Западные футбольные клубы уже часто работают с аналитическими отделами, в том числе изучающими финансовые показатели.
Например, Кевин Де Брюйне, атакующий полузащитник «Манчестер Сити», недавно установил влияние своей игры на доходы команды: в результате его зарплата была увеличена вдвое за период в 5 лет.
Не диванная аналитика: что еще показали данные?
Моей аудитории интересно выделять отдельные личности, смотреть на индивидуальные данные футболистов: это повышает имидж клубов и каждого игрока лично.Как аналитик, мне нравится выявлять тенденции высокого уровня (по странам, по лигам) и описывать их в виде графиков (например, процент опасных атак).
Например, в Англии, Германии, Франции и Испании во всех дивизионах принят аналогичный стиль игры; внутри страны практикуют примерно одинаковый футбол с одинаковым процентом опасных атак.
В России Премьер-лига и Национальная лига различаются по манере игры, поэтому говорить о едином стиле сложно.
Мне интересно, чем одна страна отличается от другой.
В начале проекта я смотрел на количество игроков на разных позициях в разных командах.
Состав команды влияет на стиль игры.
Например, в таких разных странах, как Словения и Нигерия, принят стиль игры без центра поля, со слабыми защитниками, а количество опасных атак достигает 80%.
В России наименьшая доля злоумышленников – около 20%.
В то же время в странах с более успешными командами процент нападающих гораздо выше, и это влияет на качество игры.
У нас явный перекос в сторону полузащиты, тогда как в Бельгии, Италии, Испании, Англии и так далее доля защитников и полузащитников примерно равна, а доля нападающих выше, чем в России.
Что касается нашей молодежной лиги, то у некоторых клубов показатели отличались от других, и был дисбаланс.
Однако это достояние не столько конкретной команды, сколько российской тренерской школы.
Я написал руководству клубов и попросил обратить внимание, но они мне пока не ответили.
Мне также очень интересно посмотреть, на каком уровне находится наш футбол по сравнению с другими странами.
Результаты наших клубов в последнее время оставляют желать лучшего, и мне хотелось проанализировать, почему это происходит. Российский футбол страдает от той же проблемы, что и многие другие отрасли страны.
Большинство футбольных клубов финансируются правительством и крупными полугосударственными компаниями, а те, кто не имеет такой поддержки, быстро оказываются в финансовых трудностях.
Посмотрим, сколько команд приняло участие в сезонах, начиная с 15/16. Именно так мы оцениваем обновления лиг и пытаемся сравнить их с результатами команд на международной арене.
Я проанализировал количество клубов, прошедших через разные дивизионы в разных странах: в Англии 4 дивизиона, в Германии – 3, в России РПЛ и ФНЛ.
За последние 5 сезонов в России играло столько же команд, сколько и в Англии, но не все из них находятся в высшей лиге.
При этом история некоторых британских клубов насчитывает десятки и сотни лет: они не исчезают, не разоряются и играют, хотя и не всегда в высших эшелонах.
Возьмите «Фулхэм», старейший футбольный клуб Лондона.
Она существует с 19 века и все это время то входила, то выходила из Премьер-лиги, но не прекращала свою деятельность.
У нас этого практически нет; многие клубы быстро разоряются после попадания в высшую лигу.
О планах на будущее
Проект «Футбол в цифрах» — это не работа, а хобби, хотя со временем в планах его монетизировать.В 2022-2023 годах планирую улучшить данные InStat и Wyscout по ТТД (технико-тактическим действиям) и данные отслеживания.
Эта информация позволяет видеть движения игрока во время матча и используется для более расширенной аналитики.
Меня интересуют раскладки по каждому игроку, ряд метрик по каждому матчу, данные о координатах поля: так можно проанализировать, что происходит в голове тренера команды соперника.
Меня интересуют около 30 стран: сюда входят страны Европы, Латинская Америка и Китай.
Но все это, конечно, требует времени и денег.
Итак, на графике представлена диаграмма разброса, на которой есть три оси: Y — голы на команду X — отборы на команду Размер пузыря/шара — процент опасных атак.
Эти метрики описывают как атакующие, так и защитные действия.
Их сочетание говорит красноречивее всяких слов о качестве футбола.
Моя работа может стать основой для аналитики, адресованной профессиональной аудитории: футбольным клубам, спортсменам и тренерам.
Люди из Российского футбольного союза уже интересовались подробными шорт-листами и закономерностями в юношеском и юношеском футболе.
Надеюсь, что мои достижения смогут быть использованы для изменения стиля тренировок в отечественных клубах.
Вполне возможно, что они станут основой научных исследований.
Я очень увлечен тем, чем занимаюсь: часто сижу до полуночи и с интересом что-то доделываю.
Конечно, сбор и подготовка данных занимает много времени, но это большая часть успеха.
Иногда нужно долго думать, как подключить данные, всегда чего-то не хватает, но для меня это еще одна возможность учиться и развиваться.
Год назад я прошла курс Наука о данных из Нетологии.
Это очень помогло расширить мой кругозор и понять, как работать с информацией.
Я очень надеюсь, что со временем мой проект превратится во что-то полезное не только для любителей, но и для профессионалов, и что кто-то захочет использовать мой труд для развития футбола.
Теги: #Сделай сам или сделай сам #аналитика #Визуализация данных #наука о данных #данные #специалист по данным #Инженерия данных #анализ данных #ИТ-статистика #анализ данных #графика #футбол
-
Lenovo Ideapad G550 2958-Acu
19 Oct, 24 -
Ежедневная Доза Знаний. Я Хочу Больше.
19 Oct, 24 -
Intel Омни-Пат. Мы Ценим Данные Повсюду
19 Oct, 24 -
Кто Ты, Читатель Хабра?
19 Oct, 24 -
Вопросы По Php (Интервью)
19 Oct, 24 -
Выпущен Кандидат На Ubuntu 9.10
19 Oct, 24 -
Обзор Инструментов Обновления Для Windows 7
19 Oct, 24