L’intelligence artificielle pour détecter les futurs sportifs de haut niveau
Écoutez l'interview d'Arthur Leroy
Arthur Leroy
Qui a dit que science et sport ne faisaient pas bon ménage ? Pas Arthur Leroy en tout cas, qui vient de finir sa thèse, « Apprentissage de données fonctionnelles par modèles multitâches : application à la prédiction de performances sportives ». Dans ce 92e podcast Interstices, il nous donne un exemple des dialogues possibles entre science et sport, à travers son travail sur la prédiction des performances futures de nageurs. Mais tenter de prédire des résultats sportifs ne date pas d’hier, dès les années soixante, le baseball fut précurseur en la matière, avec la sabermétrie.
Aujourd’hui, la plupart des sports font appel à des scientifiques pour chercher à améliorer les performances des athlètes. On se souvient encore, au tournant des années 2010, de la polémique sur les maillots de bain ultraperformants qui avaient finalement été interdits.
Arthur Leroy, lui, ne s’intéresse pas à la fabrication de maillots, mais à l’intelligence artificielle. À l’aide des performances en compétitions enregistrées par la Fédération Française de Natation depuis 2002, son algorithme est capable en théorie de prédire la progression d’un nageur. Il constitue ainsi un outil précieux de mesure pour les coachs, qui disposeront ainsi d’un regard objectif sur le potentiel des nageurs qu’ils entrainent.
Pour en savoir plus sur les liens entre sport et sciences, n’hésitez pas à regarder Le Stratège (2011), inspiré de l’histoire vraie de Billy Beane, un entraineur américain de baseball précurseur de la sabermétrie.
Retranscription
Lorenzo pour Interstices : Chers auditeurs et auditrices, bienvenue dans ce 92e podcast d’Interstices, Cette semaine, pour rester dans la thématique sport des Jeux Olympiques de Tokyo, je vous propose de vous intéresser à l’aide que peuvent apporter les sciences du numérique aux sportifs de haut niveau et à leurs coaches. Pour en parler, nous recevons Arthur Leroy.
Arthur Leroy : Bonjour.
Interstices : Vous êtes jeune chercheur en mathématiques appliquées à l’université de Paris, et vous venez de finir votre thèse « Apprentissage de données fonctionnelles par modèle multitâche : application à la prédiction de performances sportives ».
Arthur Leroy : Tout à fait.
Interstices : Vous utilisez l’intelligence artificielle pour prévoir le potentiel de futurs nageurs olympiques. C’est bien ça ?
Arthur Leroy : On essaye, même si le problème réel qu’on cherche à résoudre est quelque chose d’un petit peu moins ambitieux, mais on essaye de donner des outils objectifs pour aider à la décision pour les fédérations ou les clubs, pour essayer de trouver quels sont leurs jeunes sportifs les plus prometteurs et essayer de prédire – évidemment sous couvert d’une grande incertitude – les performances futures que pourraient faire de jeunes sportifs en ayant observé des données du passé et le début de leur carrière.
Interstices : Et vous en tant que chercheur, qu’est-ce qui vous a poussé à vous intéresser aux sciences du numérique appliquées au sport ?
Arthur Leroy : Eh bien c’était un peu de hasard et un petit peu de préférence personnelle on va dire, le monde du sport est quelque chose qui me suit depuis longtemps, et c’était l’envie à l’époque de travailler sur un sujet qui m’importait personnellement ; j’avais eu d’autres possibilités sur des sujets on va dire plus classiques, celui-là étant vraiment très peu exploré au moment où j’ai commencé ma thèse, mais j’avais l’envie personnelle de faire quelque chose qui ne pourrait pas faire de mal, c’était à l’époque une envie que j’avais, et en particulier c’était un sujet que je connaissais bien. Je me suis dit que j’allais écrire un petit sujet de thèse sur la, sur cette question-là et à l’époque je travaillais à l’INSEP, institut national du sport, donc en discutant avec des responsables de la détection et des fédérations ils ont émis le besoin d’avoir des outils objectifs pour les aides à la détection des jeunes et on s’est dit que c’était pas idiot de monter un sujet de thèse sur cette question-là et c’est ce qu’on a fait.
Interstices : Je voudrais maintenant rentrer un peu plus dans le détail, pour parler de l’IA, l’intelligence artificielle, c’est un sujet qui suscite beaucoup de fantasmes, mais en quoi ça consiste concrètement ?
Arthur Leroy : Alors déjà j’aimerais faire une petite distinction que je fais souvent quand je parle de ces sujets-là, c’est qu’on entend pêle-mêle en général beaucoup de termes qui désignent des choses très différentes, donc notamment « intelligence artificielle » qui est un terme finalement souvent fourre-tout et qui regroupe beaucoup beaucoup de problèmes différents et beaucoup de disciplines. Dans l’intelligence artificielle on peut trouver des neurosciences, l’informatique, les mathématiques, et plein d’autres choses, et qui voudraient qu’on essaye de mimer l’intelligence humaine ou même animale, avec des dispositifs technologiques, artificiels comme on le dit. Donc là-dedans il a beaucoup, beaucoup de choses, et souvent on mélange machine learning et intelligence artificielle : le machine learning n’étant qu’une composante de l’intelligence artificielle, qu’une façon, certes très performante aujourd’hui, de le mimer, le machine learning aujourd’hui est à la croisée entre les mathématiques et l’informatique, donc c’est qu’une sous-partie, et qui consiste à apprendre aux ordinateurs à apprendre à partir de données ; donc on considère souvent l’ordinateur comme, je sais pas, un jeune humain qui serait confronté à tout un tas de données et d’expériences, autour de lui, et il existe plein de stratégies d’apprentissage différentes, qui sont liées à plein de problèmes mathématiques sous-jacents différents. Et au sein du machine learning il existe une sous-catégorie, très populaire en ce moment, qu’on appelle le deep learning, qio est basé sur un algorithme qui maintenant est très populaire, qui s’appelle les réseaux de neurones, mais ce n’est qu’une stratégie parmi plein d’autres, et à vrai dire moi ma thèse je l’ai faite sur un algorithme qui n’est pas le réseau de neurones, qui s’appelle régression par processus gaussiens, et qui, sans être particulièrement un concurrent, est une branche différente, qui répond souvent à des problématiques différentes.
Interstices : Et comme vous le disiez, vous partez des données ?
Arthur Leroy : Oui alors ça c’est toujours très important dans les sciences de l’aléatoire et dans les problématiques d’apprentissage c’est que la question centrale de l’apprentissage est celle-ci c’est : comment, à partir des données on va remettre en cause nos croyances sur le monde. Dans à peu près tous les modèles d’apprentissage, l’intérêt est d’essayer de prendre des décisions, d’agir en interaction avec le monde qui nous entoure, donc il va forcément se baser sur un certain système de croyances ou de connaissances et de remise en cause de celui-ci à partir des données, qu’on pourra soit capter par des capteurs, soit qu’on aura recueillies en amont ou … donc ça ça va beaucoup dépendre, utiliser les données recueillies, pour nous informer, sur le monde et / ou prendre des décisions. Et moi dans mon cas de figure c’était appliqué dans un cadre bien particulier où on recueille des données sur les performances des sportifs à leur jeune âge et on veut essayer de décider qui sont les plus à même donc essayer de prédire leurs performances futures et utiliser ça pour prédire ceux dont on pense qu’ils ont le plus de potentiel pour devenir sportifs de haut niveau.
Interstices : Schématiquement, votre algorithme utilise ces 19 années de données, l’évolution qu’il peut voir sur les nageurs du passé, pour savoir comment vont évoluer les nageurs du présent, qui sont aujourd’hui en train de nager dans les bassins.
Arthur Leroy : Eh bien on espère et donc vous avez dit tout à l’heure dans le titre de ma thèse, il y avait le mot multitâche, c’est vraiment ce mot-là qui est à la base de la stratégie que j’ai proposée, alors en fait c’est assez intéressant parce que dans notre cas de figure la problématique des données, la problématique spécifique du monde du sport, va un peu pousser l’innovation mathématique, c’est-à-dire que, parce qi’on avait des données sous cette forme-là, et cette forme-là c’est quoi, finalement on a peu de compétitions pour chaque nageur, un nageur il va pas faire dix mille, cent mille répétitions de compétitions au cours de sa jeune carrière, il va en faire au plus quelques dizaines, des fois 4 ou 5, donc on a peu de compétitions, et qui sont pour chaque nageur pas faites aux mêmes âges évidemment qu’on va pas dire à tous les nageurs faites une compétition tous à 11 ans puis à 11 ans et 3 mois et 2 jours, donc on a des compétitions qui viennent au fil de l’eau, personne n’en a fait le même nombre, et personne au même moment. Et donc on a des données qui sont très particulières, qu’on appelle des séries temporelles irrégulières, et ça mathématiquement c’est quelque chose qui est assez peu souvent exploré et qui a demandé une vraie innovation mathématique dans le traitement de cela. Donc on avait peu de données par individu, des séries irrégulières, et on a voulu utiliser comme vous l’avez dit l’information des personnes qui ont déjà eu une carrière longue, qui ont été jeunes puis qui ont ensuite eu une carrière à l’âge adulte pour nous aider à faire les prédictions des jeunes d’aujourd’hui. Et donc le mot multitâche il revient à ça et dire qu’on utilise l’information partagée entre tous les nageurs et c’est en ça qu’il y a une nouveauté, on utilise plus d’informations donc l’information dans notre cas de figure de tous les nageurs qui ont déjà fait des compétitions et qui apparaissent dans notre base de données, au lieu d’utiliser les données d’un seul nageur, utiliser seulement ses performances étant jeune pour prédire la suite. Et ça il s’avère que c’était une nouveauté dans l’algorithme de la régression par processus gaussien dont je parlais tout à l’heure.
Interstices : Arthur Leroy, je rappelle que vous êtes chercheur en mathématiques appliquées, à quelle étape de la recherche est-ce qu’elles interviennent ces mathématiques ?
Arthur Leroy : Eh ben j’ai envie de dire un peu partout, quand on parle d’intelligence artificielle c’est quand même avant tout faire des mathématiques, même si ces mathématiques-là sont implémentées ensuite dans des algorithmes informatiquement, mais j’ai tendance à dire que je passe 50% de mon temps à écrire des équations et les autres 50% à coder ces algorithmes dans les machines pour de vrai, en tout cas elles sont là à la conception, en général les algorithmes d’intelligence artificielle se basent sur des modèles théoriques qui ont des paramètres libres, et c’est l’apprentissage de ces paramètres qui revêt tout l’intérêt des algorithmes d’apprentissage. Donc vous pouvez imaginer qu’on développe une espèce de machine avec plein de petits curseurs, et un algorithme d’apprentissage qu’est-ce qu’il fait ? il regarde des données, et à chaque fois qu’il voit une nouvelle donnée, il va ajuster ses curseurs, de telle sorte que le problème sera mieux résolu une fois qu’on a vu ces nouvelles données. Je donne souvent l’exemple caricatural de : on a des photos d’animaux qui viennent face à nous, des chiens, des chats et ce genre de choses, et notre algorithme c’est une machine à nous dire en voyant une photo est-ce qu’on voit un chat, un chien, un cheval ou ce que vous voulez eh bien on va, à chaque fois qu’on voit une nouvelle photo, ajuster les curseurs pour que la machine soit la plus à même de, en voyant une photo de chien, nous dire le mot « chien ».
Interstices : Et finalement, c’est ce que fait votre algorithme ? Il regarde les performances des jeunes nageurs, et les compare aux performances que des nageurs olympiques avaient au même âge ?
Arthur Leroy : Exactement, alors notre algorithme il fait deux choses en parallèle, il traite un problème qu’on appelle d’apprentissage non supervisé, qui est de regrouper les nageurs qui se ressemblent entre eux, et en même temps, en simultané, il fait un problème d’apprentissage qu’on appelle supervisé, c’est-à-dire en regardant des performances précédentes, il peut prédire les performances suivantes. Et donc on fait simultanément ça, on détecte les similarités entre un jeune nageur d’aujourd’hui et est-ce qu’il ressemble ou non à des jeunes nageurs du passé qui ont eu une trajectoire similaire je ne sais pas par exemple de dix à onze ans, et si un nageur du passé a fait une certaine performance voilà dans ses seize, dix-sept ans, eh bien il va d’autant plus contribuer à la prédiction qu’on va faire pour ce jeune nageur encore non observé. Tout ça ne se fait pas au doigt mouillé, on a des équations solides derrière qui nous disent comment faire la prédiction, et surtout une chose qui est très importante pour moi, c’est à quel point on est sûrs de ces prédictions. Et une spécificité de notre algorithme c’est qu’on donne une quantification de l’incertitude de nos prédictions, c’est-à-dire que plutôt que donner une valeur de performance que va faire un nageur à seize ans, ça va plutôt être un intervalle de valeurs plus ou moins crédibles.
Interstices : Et c’est cette innovation qui rend possible la prédiction à partir de ces données, comme vous le disiez, irrégulières des nageurs ?
Arthur Leroy : Exactement, c’est en ça que ça fournit quelque chose de nouveau c’est que jusqu’à maintenant on avait des données irrégulières qui étaient très difficiles à utiliser pour améliorer la performance, donc on pouvait se baser que sur quelques points de données, un nageur qui faisait cinq, dix compétitions dans son jeune âge, pour prédire, et maintenant en utilisant les données issues de milliers de nageurs précédents, on peut largement augmenter les performances prédictives, et la quantification de l’incertitude, bien meilleure pour dire à quel point on est sûrs de nos prédictions.
Interstices : Et du coup, est-ce que c’est fiable ?
Arthur Leroy : On espère, alors ce qu’on a montré c’est que sur des données simulées c’est fiable. Ca c’est souvent l’étape numéro 1 j’ai envie de dire ; sur des données réelles mais du passé c’est fiable aussi, donc c’est des modèles qu’on a validés en prenant, on imagine un jeune nageur en 2002, on regarde ses données sur 5 ans, on va dire de dix à quinze ans, et puis on fait semblant, on se cache les données qu’il a eues dans la suite de sa carrière, donc de quinze à vingt ans, on fait comme si on ne les avait pas vues, et on utilise notre algorithme pour faire des prédictions de quinze à vingt ans. Il s’avère pourtant que ces données on les a observées, on les a juste gardées de côté, on compare les données de ce qu’a vraiment fait le nageur de quinze à vingt ans avec nos prédictions, et on s’aperçoit que notre algorithme marche parfaitement bien, avec une quantification de l’incertitude qui est exactement ce qu’on attendrait, c’est-à-dire 95% des données vraiment observées, vraiment qui se sont vraiment passées, se trouvent bien là-dedans. Donc on a un algorithme qui marche conformément à ce qu’on attendrait. La dernière étape dans tout ça, c’est de faire des prédictions, dans la vie réelle, de prendre des jeunes aujourd’hui, et de faire des prédictions sur ce qu’on pense, qu’ils pourraient faire dans les années futures, et puis d’attendre que ça se passe, pour voir si effectivement on a quelque chose qui marche en pratique.
Interstices : Est-ce qu’il n’y a pas un risque que des nageurs soient découragés par la prédiction de l’algorithme ?
Arthur Leroy : Et c’est la très bonne question que l’on me pose souvent, alors la façon de botter en touche avec celle-là c’est que on pourrait aussi avoir des jeunes nageurs qui seraient encouragés à voir que leurs performances, en tout cas finalement même s’ils sont pas dans es clous aujourd’hui eh bien ils ont une très bonne marge de progression qui fait qu’ils pourraient y être, mais évidemment c’est l’éternelle question de la science et de l’utilisation qu’on en fait. J’ai malheureusement pas grand-chose à dire de plus que on essaie de faire progresser la science comme on peut mais en espérant que cette utilisation soit la plus positive possible mais malheureusement on n’en a pas l’assurance dans ce cas précis.
Interstices : On parle au final d’un algorithme qui prévoit des performances futures à partir des performances du présent. Est-ce que c’est un outil qui pourrait être utilisé pour d’autres choses que de la natation ?
Arthur Leroy : Tout à fait. C’est justement une des choses qui étaient vraiment intéressantes, comme je vous ai dit tout à l’heure, le problème réel de ces données a poussé à l’innovation mathématique, ce n’est pas forcément quelque chose qui était prévu initialement, mais on a aujourd’hui un algorithme qui résout un problème bien plus large, bien plus général, que celui qu’on avait prévu initialement. Tous les problèmes qui ont des données un peu de même nature, c’est-à-dire beaucoup soit d’individus ou beaucoup de tâches séparées les unes des autres mais qui ont des caractéristiques communes et qui sont faiblement observées en tout cas qui sont irrégulièrement observées, eh bien ça c’est des problèmes qu’on trouve très souvent on peut penser aux applications médicales, où on a plein de patients imaginons qui ont des rendez-vous médicaux qui sont évidemment pas au même moment, on peut penser à des données, je sais pas, météorologiques, qui seraient pas observées régulièrement, de manière générale à peu près tous les problèmes où on a des observations a posteriori c’est-à-dire qu’on a recueilli des données un petit peu quand on a pu, eh bien on pourrait utiliser notre méthode, pour rendre des résultats plus robustes en utilisant des sources différentes de données. Beaucoup de sources différentes de données, de données irrégulières, et on veut quand même avoir des prédictions fiables, eh bien dans ce cadre-là notre algorithme peut tout à fait s’utiliser quel que soit le domaine d’application.
Interstices : En tout cas, rendez-vous en 2024 pour les prochains jeux olympiques de natation et rendez-vous à la prochaine fois sur Interstices pour un nouveau podcast.
Newsletter
Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité
Niveau de lecture
Aidez-nous à évaluer le niveau de lecture de ce document.
Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !
Arthur Leroy
Arthur Leroy est jeune chercheur et enseignant assistant en statistiques et Machine Learning à l'Université de Paris.
Lorenzo Jacques
En charge de la réalisation des podcasts pour Interstices (responsable de l'animation d'Interstices d'avril à novembre 2022).