Prix Turing 2024 : Andrew Barto et Richard Sutton, pionniers de l'apprentissage par renforcement
Andrew Barto et Richard Sutton, reconnus comme pionniers de l'apprentissage par renforcement, sont les lauréats du Prix Turing 2024, le "prix Nobel de l'informatique".

Le Prix Turing 2024, décerné par l'Association for Computing Machinery (ACM), a été décerné le 5 mars à Andrew Barto et Richard Sutton « pour avoir développé les fondements conceptuels et algorithmiques de l'apprentissage par renforcement. »
Andrew Barto est professeur émérite de sciences de l'information et de l'informatique à l'Université du Massachusetts à Amherst. Richard Sutton est professeur d'informatique à l'Université de l'Alberta, chercheur scientifique chez Keen Technologies et membre de l'Amii (Alberta Machine Intelligence Institute).
L'apprentissage par renforcement est une des approches les plus importantes pour la création de systèmes intelligents. Il est notamment utilisé dans les modèles de DeepSeek.
« Le domaine de l'intelligence artificielle (IA) s'intéresse généralement à la construction d'agents, c'est-à-dire d'entités qui perçoivent et agissent. Les agents les plus intelligents sont ceux qui choisissent de meilleures lignes de conduite. Par conséquent, l'idée selon laquelle certaines lignes de conduite sont meilleures que d'autres est au coeur de l'IA. La récompense, terme emprunté à la psychologie et aux neurosciences, désigne un signal fourni à un agent en rapport avec la qualité de son comportement. L'apprentissage par renforcement (RL) est le processus d'apprentissage pour se comporter de manière plus efficace en fonction de ce signal. » détaille l'ACM.
Lire aussi : Les 4 métiers IT les plus recherchés en 2025
Andrew Barto et Richard Sutton sont les auteurs du manuel Reinforcement Learning: An Introduction, dont la première édition date de 1998, qui est la référence dans ce domaine.
Des pionniers de l'apprentissage par renforcement
« Dans une série d'articles publiés dans les années 1980, Barto et Sutton ont présenté les principales idées, construit les fondements mathématiques et développé d'importants algorithmes pour l'apprentissage par renforcement, l'une des approches les plus importantes pour la création de systèmes intelligents. » indique l'ACM.
L'association cite deux exemples marquants d'apprentissage par renforcement : la victoire du programme informatique AlphaGo, développé par Google face aux meilleurs joueurs de Go en 2016 et 2017 et le développement de ChatGPT dont la seconde phase d'entraînement a utilisé l'apprentissage par renforcement à partir du feedback humain pour capter les attentes humaines.
« Bien que les algorithmes de Barto et Sutton aient été développés il y a plusieurs décennies, des avancées majeures dans les applications pratiques de l'apprentissage par renforcement ont été réalisées au cours des quinze dernières années en fusionnant l'apprentissage par renforcement avec des algorithmes d'apprentissage profond (initiés par les lauréats du prix Turing 2018 Bengio, Hinton et LeCun). Cela a conduit à la technique de l'apprentissage par renforcement profond. » précise l'ACM.
Lire aussi : De Llama 3 à Llama 4 : ce qui change, ce qui reste
Le prix Turing, courramment appelé le « prix Nobel de l'informatique », est doté d'un prix d'un million $ avec le soutien financier de Google. Il porte le nom d'Alan Mathison Turing, le mathématicien britannique qui a formulé les fondements mathématiques de l'informatique.
Sur le même thème
Voir tous les articles Data & IA