Гид по продвинутой статистике
Сегодня я бы хотел немного обсудить продвинутую статистику и различные вспомогательные показатели, которые должны помогать нам при анализе конкретного матча или определенного отрезка в турнире. Но речь пойдет сегодня не столько об обыденной статистике вроде отборов, средней точности передач или выигранных верховых единоборствах, которые вы встретите практически на любом более-менее развитом статистическом сайте, а в первую очередь о более углубленных и запутанных на первый взгляд Packing и xG-моделях. Также мы захватим PPDA, но сильно углубляться в эту тему не будем - с подобной статистикой на данный момент работают в основном в более узких кругах и бывает достаточно затруднительно найти ее в свободном доступе.
В будущем в моем блоге вы часто сможете столкнуться с продвинутой статистикой, опираясь на которую я иногда оцениваю выступления конкретных игроков и команд, так что советую вам сразу ознакомиться с основными терминами, если вы интересуетесь футбольной аналитикой.
xG (expected goals)
В переводе с английского expected goals обозначает "ожидаемые голы" - уже исходя из самого названия мы можем понять основную цель данных подсчетов. Данная статистика оценивает качество создаваемых командой моментов и определяет реальное количество голов, на которое она наиграла (ожидаемые голы).
Итоговая цифра, которая накапливается у команды за матч - это, по сути, сводка всех моментов в матче, которые завершились ударом. Каждый эпизод оценивается в первую очередь исходя из позиции, из которой был нанесен удар. Подробнее ознакомиться со всеми тонкостями подсчетов, самой системой и отличиях между различными моделями вы можете в данном ликбезе по xG, где собраны самые полезные материалы на эту тему.
Таким образом, мы можем заключить, что нужно стараться продвигать мяч как можно ближе к воротам соперника (желательно в штрафную) и стараться бить только из выгодных положений, не сбиваясь при этом на дальние удары. Как правило, удары с дальних и средних дистанций крайне мало весят и заведомо являются практически безнадежными. Наиболее качественные моменты наносятся из danger zone (z1, z2 и z3 на карте), в которую большинство команд и стараются доставлять мяч нападающему.
Ниже - еще одна графика, которая показывает вероятность забить из той или иной позиции. Она достаточно поверхностная (все таки пробить с 30 и 40 метров - существенная разница, но тут это попадает под один процент), но все же помогает новичкам чуть детальнее ознакомиться с трактовкой моментов.
Так вот. Каждый удар приносит команде определенное кол-во баллов в копилку, которые в конце матча суммируются и приводят к подобным результатам:
Конечно, не всегда счет на табло отображает реальную картину игры (как и в данном случае). Если команда/игрок на отрезке в пять матчей набила 3,0 xG и при этом забила 6-7 голов, то в последующих матчах ее, вероятно, ждет регрессия к среднему. Не бывает такой реализации, которая позволяла бы обманывать эту модель на длинном отрезке - если в каком-то матче и забиваешь больше, чем создаешь, то через какое-то время твоя реализация сильно упадет по отношению к качеству моментов и на дистанции кол-во забитых тобой голов должны соответствовать ожидаемому показателю. Лучший пример этому - московский Спартак, который по качеству игры в xG-моделях прошлого сезона шел на 5-6 месте, но за счет аномального фарта взял чемпионство. В этом сезоне Спартаку сильно не везет и они находятся в таблице ниже, чем должны быть -> это и есть регрессия к среднему.
Чрезмерно крутая реализация, которая не коррелирует с качеством созданных моментов, зовется оверперформингом.
xPoints
Не знаю, справедливо ли будет назвать xPoints (ожидаемые очки) подразделом xG, но все же. Подсчеты ожидаемых очков базируются на информации об ожидаемых голах. Происходит это следующим образом: по каждому матчу постфактум обычно составляются коэффициенты (вероятности) на определенный исход, которые напрямую взаимосвязаны с качеством допущенных и созданных командами моментов. Исходя из этих коэффициентов (вероятностей) на тот или иной исход высчитываются xPoints.
Если обрисовать картину совсем простенько, то итоговый коэффициент на победу команды умножается на три и мы получаем примерное кол-во очков, на которые наиграла команда в определенном матче. Чаще всего xPoints считают для всего чемпионата и мы получаем такие таблицы с ожидаемыми очками:
Опять же, если какая-то команда незаслуженно находится выше ожидаемого места, радоваться не стоит - рано или поздно регрессия ее накроет и она окажется там, где ей самое место. Зеркальная же ситуация с командами, которые, согласно xPoints, серьезно недобирают очки.
Packing
Packing-статистику придумали в Германии с целью получить возможность за счет цифр оценивать уровень продвижения мяча. При этом есть теория, что это полезно как при скаутинге отдельных игроков, так и при оценке комадной игры, но об этом позже. Важный момент: баллы заносятся в таблицу лишь при передачах вперед, которые отрезают от игры по меньшей мере одного соперника.
В данном случае пасующему игроку заносится 4 балла в графу "Packing", а принимающему пас футболисту зачисляются те же 4 балла уже в графу "Приём".
Подробнее по основным терминам:
Packing – количество соперников, отрезанных передачей вперёд. Исключительно вперёд, при этом она может иметь как прямое, так и диагональное направление.
Приём – зеркальный показатель Packing, но учитывающий приём передач, отрезающих соперников. Всё, как с Packing.
Impect – количество защитников, отрезанных передачей вперёд. Здесь важна деталь: мы рассматриваем защитников не как единый монолит (тройка, четвёрка), а как отдельных игроков. Если два крайних защитника выдернулись высоко и были отрезаны – пасующему засчитывается Impect 2.
Также считают:
PackDr – количество Packing, сделанного за счёт удачной обводки. Внимание: во-первых, здесь учитывается только удачный дриблинг (а не просто таскание мяча вперёд без сопротивления соперника). Во-вторых, здесь нет деления на Impect: даже если отыгранным остаётся защитник, балл зачитывается исключительно в Packing.
PackFT – количество Packing, заработанного при передачах, сделанных в финальной трети. Принципы те же, просто берётся ограниченная зона.
* * *
В первую очередь показатель по отрезанным игрокам полезен при скаутинге отдельных футболистов. Условно говоря, имея 3-4 кандидата на позицию глубинного плеймейкера, следует ознакомиться с Packing-статистикой твоих кандидатов, чтобы понять, кто эффективнее продвигает мяч из глубины и какую роль они играют в своих командах в плане продвижения мяча. Еще это очень эффективно, когда ты ищешь центрального защитника с хорошим первым пасом - цифры тебе могут сильно упростить оценку этого компонента.
Главный Packing-источник в России на данный момент - это Пыльный Чердак, который в полном объеме предоставляет данные по чемпионату России и некоторым матчам европейских лиг.
Попытка оценить эффективность владения
Вы спокойно можете пропустить этот пункт и ничего не потеряете. Тех, кого привлекло название, я вынужден предупредить, что эта статистика еще не доведена на совершенства и в принципе пока является достаточно сомнительной.
Дело в том, что над ней недавно начал работать я.
Так вот. Я считаю, что Packing-статистику в целом пока сложно использовать применительно к клубам. Главный пример этому Краснодар из РФПЛ, который несмотря на абсолютное лидерство в своем чемпионате по Packing-статистике и самому высокому проценту владения по лиге идет лишь на четвертом месте по качеству созданных моментов после 12 туров и рискует в ближайшее время опуститься еще на строчку ниже. Хоть по цифрам они и продвигают мяч лучше всех в чемпионате, в моменты это выливается не всегда. Можно одной передачей из глубины отрезать всю команду соперника и создать для партнера момент весом в условно говоря 0,3-0,4 xG, а можно на протяжении десяти минут катать мяч около чужой штрафной, набивая себе баллы в Packing-таблицы, но при этом ни разу за это время не выйти на ударную позицию. Packing будет говорить о том, что ты хорошо продвигаешь мяч, но на самом деле ты за это время ни разу не создаешь перевеса в какой-либо зоне, чтобы за счет этого подготовить себе хороший момент. Получается, львиная доля владения и попыток обострить игру попросту уходит в пустую.
В этой связи мы с моим коллегой пришли к показателю xG/Packing (новое название - Pack_G) в попытке связать между собой показатели по отрезанным игрокам и качеству созданных моментов. Тем не менее, проверку дистанцией наша модель пока не выдерживает - в результате мы не пришли к тем показателям, которых хотели добиться.
Главная цель наших наработок - установить реальную эффективность от продвижения мяча, показав, кто лучше пользуется своим владением и действительно конвертирует его в моменты. Если будет серьезный прогресс в этом плане, то вы, вероятно, будете одними из первых, кто об этом узнает. Сейчас у нас есть еще несколько вариантов по подсчету этого компонента, но пока что я предпочту закрыть эту тему. Возможно, еще вернемся к этому в моих будущих материалах.
PPDA
PPDA считается самой прогрессивной метрикой для оценки интенсивности (прошу не путать с уровнем) командного прессинга. Считается эта статистика следующим образом: точные передачи соперника делятся на все оборонительные действия, которые предпринимает команда (отборы, перехваты, попытки отборов и фолы) на атакующих 3/5 поля.
При этом размеры участка поля можно варьировать в зависимости от стиля игры команды.
* * *
Итак, основную продвинутую статистику мы сегодня обсудили. В ближайшее время нам едва ли понадобится больше углубленных моделей для анализа матчей.