La récursivité est la prochaine loi d'échelle en IA
Englishto
Imagine un modèle d’intelligence artificielle avec seulement 7 millions de paramètres, entraîné à partir de zéro, qui surpasse des modèles des centaines de fois plus grands et entraînés sur l’ensemble d’Internet pour des problèmes tels que le Sudoku ou les célèbres tests de l’Arc Prize. Cela semble impossible, n'est-ce pas ? Pourtant, en 2025, deux articles universitaires ont montré qu'il n'est plus nécessaire de gonfler indéfiniment la taille des modèles pour obtenir de meilleures performances : le véritable tournant vient de la récursivité appliquée au moment de l'inférence, c'est-à-dire lorsque le modèle raisonne, et non lorsqu'il s'entraîne. Ce que l'on pensait des IA était clair : plus le modèle est grand, plus il devient puissant. Mais cette règle est en train de s'effriter. Les modèles récursifs, tels que HRM et TRM, montrent que le véritable saut qualitatif ne vient pas seulement de l'échelle, mais de la façon dont le modèle parvient à « penser en plusieurs étapes » – de manière récursive – pendant le raisonnement. La récursivité, c'est-à-dire s'appeler soi-même plusieurs fois avec le même ensemble de règles, permet de traiter des problèmes que les grands LLM ne traitent que superficiellement. Prenons l'exemple de François Chopard, l'un des protagonistes de cette révolution. Il raconte comment, jusqu’en 2016, l’espoir en matière d’IA reposait entièrement sur les RNN : des modèles récursifs qui, cependant, étaient limités par des problèmes techniques tels que la fameuse « backpropagation through time », qui rendait fous les réseaux les plus profonds en raison d’erreurs qui s’accumulaient ou disparaissaient. Puis sont arrivés les Transformers, qui, à l’entraînement, font tout en parallèle et évitent ces problèmes, mais en payent le prix : chaque fois qu’ils doivent raisonner, ils doivent « se souvenir » de tout le contexte, comme si chaque fois que tu lisais une page, tu devais emporter avec toi tout le roman de Shakespeare. Cela semble puissant, mais en réalité, cela les bloque sur des tâches où de véritables chaînes de raisonnement sont nécessaires, comme trier une liste ou résoudre un Sudoku. Il y a un exemple que tu n’oublieras jamais : si tu demandes à un LLM de trier une longue liste de 31 éléments, mais que le modèle n’a que 30 niveaux « de profondeur », il ne peut tout simplement pas le faire. Ce n'est pas une question de données, c'est une barrière structurelle. C'est pourquoi HRM et TRM font la différence. HRM, par exemple, s’inspire du cerveau humain, où différentes parties travaillent à des fréquences différentes : il y a le niveau bas qui gère les détails rapides, et le niveau haut qui contrôle les stratégies plus lentes et plus profondes. Mais la vraie magie réside dans l’anneau de raffinement externe, une sorte de « boucle » qui permet au modèle de repasser plusieurs fois sur ses propres réponses, en les améliorant à chaque fois, sans avoir à croître de manière exponentielle. Et l’astuce consiste à contourner la vieille malédiction de la rétropropagation grâce à une technique appelée « deep equilibrium » et « truncated backpropagation » : au lieu de propager les erreurs sur toutes les récursions, elles s’arrêtent à un point et repartent, créant une sorte de mini-lot, mais sur la mémoire interne, et non sur les entrées. En pratique, à chaque cycle, le modèle met à jour deux types de mémoire : une locale, ZL, qui travaille sur les détails, et une plus globale, ZH, qui suit la vue d’ensemble. Ce schéma permet de résoudre des problèmes auxquels les LLM ne font face qu'avec des « hacks » tels que le chain of thought, c'est-à-dire faire écrire chaque raisonnement étape par étape, ou déléguer à des outils externes tels que des fonctions Python. Mais attention : même ces raccourcis s'arrêtent là où s'arrête la connaissance humaine. Si tu veux qu'un modèle découvre un nouvel algorithme – comme le merge sort – sans que personne ne lui ait jamais enseigné, le chain of thought ne suffit pas. La vraie récursivité, en revanche, peut le faire. L’exemple du Sudoku est frappant : le modèle récursif peut découvrir des stratégies jamais vues, sans avoir besoin d’être guidé pas à pas par des données humaines. Et ce n’est pas tout : le TRM pousse la simplification à l’extrême. Il réduit les niveaux de réseau à un seul, passe de 27 à 7 millions de paramètres, et pourtant il passe de 70 % à 87 % de précision sur des tâches telles qu’Arc Prize. Cela renverse la logique : il ne suffit plus « d'aller simplement plus loin », mais il faut « penser plus en profondeur ». Et il y a une phrase de Mel Mitchell, chercheuse citée dans le podcast, qui résume parfaitement le sujet : « Il suffit, il n’est pas nécessaire, d’aller plus loin pour s’améliorer. Il suffit, il n'est pas nécessaire, d'ajouter plus de récursivité. » La question qui reste est : que se passe-t-il si tu unis vraiment ces deux forces ? Si demain tu as des modèles gigantesques qui savent aussi raisonner de manière récursive, l'échelle de ce qu'ils peuvent faire changera à nouveau. Tout le monde n'est pas convaincu que s'inspirer trop de la biologie soit la bonne voie : de temps en temps, le machine learning fonctionne mieux lorsqu'il s'éloigne du cerveau humain et s'adapte aux ordinateurs, comme le montre le passage d'AlexNet à VGG, où les inspirations « neuronales » ont été abandonnées pour se concentrer sur la simplicité qui l'emporte sur les GPU. Mais le fait demeure : la récursivité permet à de minuscules modèles de battre des géants, à condition que le problème nécessite un raisonnement en plusieurs étapes. Aujourd'hui, les modèles récursifs sont spécifiques à une tâche : un TRM qui sait faire du Sudoku ne sait pas résoudre un labyrinthe, et vice versa. Mais dès que l'on trouvera le moyen de généraliser cette récursion, nous aurons des agents capables de vraiment raisonner « comme des êtres pensants », et pas seulement d'imiter des textes. La phrase à retenir est la suivante : la prochaine loi d’échelle de l’IA ne sera pas seulement « plus c’est grand, mieux c’est », mais « plus c’est récursif, mieux c’est ». Si cette perspective a changé ta façon de penser à l'intelligence artificielle, tu peux le signaler sur Lara Notes avec I'm In : ce n'est pas un like, c'est ta façon de dire que cette vision fait désormais partie de toi. Et si demain tu dis à quelqu'un qu'un modèle minuscule peut battre un géant grâce à la récursivité, sur Lara Notes, tu peux taguer la personne avec Shared Offline, pour que cette conversation ne soit pas perdue. Cet épisode de Decoded par Y Combinator t'épargne 34 minutes d'écoute.
0shared

La récursivité est la prochaine loi d'échelle en IA