Ce jeu de données a été publié sous la licence CC-BY 4.0 avec l’autorisation de la DFL et est disponible sur figshare31. Il peut également être consulté via le paquet logiciel floodlight pour le langage de programmation Python32. Ce jeu de données comprend des informations provenant de deux matchs de la saison 2022/23 de la Bundesliga allemande, ainsi que cinq matchs de la deuxième division de la Bundesliga de la même saison (Tableau 1). La Bundesliga est considérée comme l’une des meilleures ligues, selon le coefficient de pays de l’UEFA33. Pour chaque match, trois fichiers sont disponibles : un fichier d’information sur le match, un fichier d’événements de match et un fichier de données de position de match. Les trois fichiers utilisent un format XML comme architecture de fichier. Au total, le jeu de données contient des informations sur 207 joueurs provenant de 10 équipes, 11 137 événements et 1 002 644 images de coordonnées x/y pour les joueurs et le ballon. Toutes les catégories de données sont définies dans le Catalogue des définitions publié par la DFL34. Les vidéos des matchs ne sont pas incluses dans ce jeu de données en raison de restrictions de licence.
Informations sur les matchs
Les fichiers d’informations sur les matchs utilisent un conteneur XML (Boîte 1) et spécifient des métadonnées générales concernant la compétition, les conditions environnementales et les concurrents.
Généralités
Les informations générales comprennent le type de sport et de compétition, la ligue, la saison, le jour de match, l’heure de coup d’envoi (format ISO 8601), ainsi que les noms et identifiants des équipes à domicile et à l’extérieur.
Environnement
Les conditions environnementales comprennent le pays, le nom du stade, l’identifiant, l’adresse, la capacité, les dimensions du terrain (en m), les conditions climatiques (température en °C, humidité en %, pression atmosphérique en hPa) et le nombre de spectateurs.
Équipes
Les fichiers d’informations sur les équipes contiennent les identifiants et noms des équipes en compétition, qu’elles jouent à domicile ou à l’extérieur, les couleurs de maillot (en hexadécimal) et la formation tactique (par exemple, « 4-2-3-1 »). En outre, chaque joueur est répertorié avec son identifiant, son nom, son numéro de maillot et sa position de jeu en abréviation allemande (par exemple, “LV” pour Linksverteidiger, arrière gauche ; TW pour Torwart, gardien de but). La Figure 2 montre les abréviations de position des joueurs sur le terrain. Les joueurs titulaires et le capitaine de l’équipe sont indiqués par « vrai » ou « faux ». Le personnel technique est listé avec ses identifiants, noms et rôles (par exemple, « entraîneur », « entraîneur adjoint »). De même, le personnel officiel est mentionné (par exemple, « médecin », « responsable de l’équipe »).

Classification des rôles des joueurs en direction de jeu de gauche à droite, adaptée de52.
Arbitres
Les arbitres sont listés avec leurs identifiants, noms et rôle (par exemple, « arbitre », « premier assistant », « quatrième officiel »).
Autres informations de jeu
Cela comprend le temps de jeu brut et net pour la première et la seconde moitié en secondes.
Données d’événements
Les fichiers de données d’événements (Boîte 2) contiennent des informations sur des événements discrets classés en actions de joueurs, de clubs et d’arbitres. Les événements auxquelles un ou plusieurs joueurs participent sont considérés comme des actions de joueur. Ces événements incluent les actions avec le ballon, les tacles, les fautes, les hors-jeu et d’autres actions des joueurs (c’est-à-dire, les actions qui ne peuvent pas être classées en actions spécifiques de joueur). Tous les coups de pied arrêtés (par exemple, coup d’envoi, touche, corner, coup franc) ainsi que les contres sont considérés comme des actions d’équipe. Les événements qui impliquent une décision de l’arbitre sont classés comme actions d’arbitre (par exemple, le début et le sifflet final, les substitutions, les sanctions).
Les événements sont structurés de manière hiérarchique (Tableau 2). Les événements dérivent de classes parente générales (par exemple, actions de joueurs) et sont ensuite spécialisés (par exemple, action avec le ballon, passe). Dans ce processus, chaque sous-classe d’événements (par exemple, tir bloqué, tir réussi, tir converti) hérite des caractéristiques de sa classe parente (tir, action avec le ballon, action de joueur). Chaque événement est également contextualisé avec des attributs (par exemple, coordonnées x/y en m, probabilité de but). Tous les événements contiennent l’attribut timestamp qui spécifie le moment où l’événement s’est produit (au format ISO 8601).
La Figure 3 montre la distribution de tous les types d’événements survenant dans le jeu de données (c’est-à-dire, différenciés en chaque sous-classe). On peut constater que le « Play », qui spécifie l’action d’un joueur, est l’événement le plus fréquemment rencontré. Un « Play » est une tentative d’un joueur pour transférer la possession du ballon à un coéquipier. Cependant, la même classe d’événements « Play » peut dériver de différentes classes parentales. Par exemple, un coup franc est considéré comme une action d’équipe, mais peut être exécuté comme un jeu. De même, suivant une manière particulière d’exécution, cette action peut être classée sous une autre sous-classe, par exemple, passe → centre. Un aperçu des attributs pour les événements les plus significatifs, leurs classes parente et sous-classe possibles, et leurs attributs est listé dans le Tableau 2.

Distribution des occurrences d’événements. L’axe des x est mis à l’échelle logarithmiquement.
La liste détaillée et les définitions de tous les événements et attributs sont disponibles dans le Catalogue des définitions des données de match officielles34.
La probabilité de but (xG) est attribuée à chaque tir au but. Les buts au football étant relativement rares et souvent influencés par le hasard35, ils peuvent ne pas refléter la véritable performance offensive d’une équipe. La valeur xG estime la probabilité qu’un tir se transforme en but11. Étant donné un nombre important de tirs observés comme données d’apprentissage, les tirs réalisés dans des situations similaires peuvent être regroupés dans des intervalles et la valeur xG calculée en fonction du taux de conversion de l’intervalle. La somme des valeurs xG de tous les tirs peut être interprétée comme une approximation plus précise de la performance offensive. Le modèle xG utilisé dans ce jeu de données ajuste la valeur xG en fonction de dix critères : (i) l’emplacement du tir, (ii) la vitesse du joueur tirant, (iii) le nombre de défenseurs sur la ligne du tir, (iv) la position du gardien de but, (v) un indicateur de « pression »36 sur le joueur en tir, (vi) la partie du corps utilisée, (vii) le contrôle du ballon avant le tir, (viii) le contrôle du ballon lors de la prise de possession, (ix) si le tir a été effectué après un coup franc, et (x) si le tir était un coup franc11. Ce modèle a été entraîné sur des données provenant de 105 627 tirs réalisés en Bundesliga allemande. Une évaluation de l’importance des caractéristiques à l’aide des valeurs de Shapley montre que les critères distance au but, distance du gardien au but et angle par rapport au but ont le plus grand impact sur le résultat du modèle.
Données de position
Les fichiers de données de position (Boîte 3) précisent les positions brutes de chaque joueur et du ballon accompagnées de métadonnées complémentaires. Les métadonnées contiennent l’identifiant du match respectif, la taille du terrain et l’heure de début de la collecte des données, c’est-à-dire le coup d’envoi de la première mi-temps. Pour chaque joueur et le ballon, les positions sont enregistrées dans une liste de trames pour chaque section de jeu (première/seconde mi-temps) et pour chaque joueur. Chaque trame a les attributs suivants : numéro de trame ((N)), horodatage local ((T) au format ISO 8601), coordonnées x et y ((X/Y) en m), distance parcourue depuis la trame précédente ((D) en cm), vitesse ((S) en km/h), accélération ((A) en m/s²), et minute de jeu ((M)).
Pour le ballon, en plus des données de position, des informations supplémentaires sur la hauteur du ballon ((Z)), l’état de possession du ballon (BallPossession ; 1 = équipe à domicile en possession, 2 = équipe à l’extérieur en possession) et l’état du match (BallStatus ; 0 = ballon inactif, 1 = ballon actif) sont fournies. La possession du ballon est définie par le joueur contrôlant le ballon. L’état du match est inactif lorsque le match est interrompu par l’arbitre, par exemple après une faute ou durant une substitution.
Bon à savoir
- La Bundesliga est l’une des ligues les plus compétitives, attirant des talents internationaux.
- Les données sur les performances des joueurs sont cruciales pour les clubs lors des analyses d’après-match.
- Le système de cotation xG (expected goals) est largement utilisé pour évaluer les performances offensives, même si les buts réels peuvent être influencés par des facteurs aléatoires.
En examinant ces données de match, il est intéressant de réfléchir à l’impact que les statistiques et l’analyse des performances peuvent avoir sur les stratégies de jeu et les décisions des entraîneurs. Cela nous amène à nous interroger sur la manière dont la technologie influence le football moderne et comment elle va continuer à façonner l’avenir de ce sport.



Ces données de match sont incroyablement détaillées ! Elles pourraient vraiment changer la façon dont les équipes analysent leur performance et affinent leurs stratégies.
Ce jeu de données sur la Bundesliga est fascinant. Il offre des perspectives précieuses pour comprendre les performances des équipes et l’impact de la technologie sur le football moderne.
L’analyse des matchs de la Bundesliga révèle à quel point le lien entre données et sport peut transformer notre compréhension du jeu. Quelle place pour l’intuition des entraîneurs ?