Stanford CS230 | Automne 2025 | Cours 8 : Agents, prompts et RAG
Englishto
En 2016, Microsoft a lancé un bot sur Twitter pour apprendre des utilisateurs. En moins d'une journée, il était devenu si raciste qu'ils ont dû l'éteindre après seulement 16 heures. Il ne s'agissait pas d'une équipe improvisée : c'était Microsoft. Pourtant, même avec des milliards de dollars et des centaines d'ingénieurs, maîtriser réellement un modèle de langage reste un problème non résolu. Et c’est là que se trouve la première faille dans le récit courant : nous pensons qu’un « modèle puissant » est synonyme de « modèle utile ». Mais en réalité, l'histoire récente des LLM est une leçon gigantesque sur la difficulté d'obtenir des résultats fiables, à jour et, surtout, corrects. La thèse de cette leçon : le véritable progrès ne consiste pas à construire des modèles de base de plus en plus grands, mais à apprendre à orchestrer, à corriger et à enrichir ceux que nous possédons déjà. Qu’il s’agisse de simples prompts améliorés ou de véritables flux de travail agentiques et multi-agentiques, la différence entre un jouet et un produit réside entièrement dans l’architecture entourant le modèle, et non dans le modèle lui-même. Andrew Ng a donné un nom à cette orientation : les « agentic workflows », c'est-à-dire des systèmes dans lesquels des modèles, des outils externes, de la mémoire et des API sont combinés en une chaîne d'actions autonomes. Prenons l’exemple d’une entreprise de biotechnologie qui souhaite classer les avis de ses clients. En théorie, il suffit de demander au modèle : « Cette phrase est-elle positive, neutre ou négative ? » Mais le résultat dépend d'une multitude de nuances : pour une start-up du secteur médical, un commentaire du type « Tout s'est bien passé, mais je m'attendais à plus » peut être négatif, alors que dans d'autres secteurs, il serait neutre. Comment adapter un modèle aux besoins réels ? Pas avec plus de données ou un modèle plus grand, mais avec des prompts conçus sur mesure, des exemples personnalisés et, de plus en plus souvent, des pipelines en plusieurs étapes qui guident la génération, l'évaluent, la corrigent et l'adaptent au contexte. Un exemple concret : la chaîne de prompts. Au lieu de tout demander en une seule instruction, la tâche est décomposée en étapes : d’abord, extraire les points clés ; ensuite, créer un plan ; enfin, rédiger la réponse finale. Cette approche, utilisée par des entreprises telles que Workera, permet d'identifier les points où le système se trompe réellement : le plan est-il insuffisant ? La réponse finale est-elle trop froide ? Il est possible d'intervenir de manière ciblée. Et dans le monde de l'entreprise, cette granularité fait la différence entre une démonstration et une solution fiable. Un fait curieux : dans une étude menée auprès de consultants du BCG, ceux qui avaient accès à l’IA et qui avaient également suivi une brève formation sur les prompts obtenaient des résultats nettement supérieurs à ceux qui n’utilisaient pas l’IA et à ceux qui l’utilisaient « à l’aveugle ». Et ce n'est pas tout : l'étude a identifié deux styles de collaboration avec les LLM. Les « centaures », qui délèguent des blocs entiers du type « Fais la présentation et préviens-moi quand tu as terminé », et les « cyborgs », qui travaillent en symbiose, en micro-interagissant avec le modèle à chaque étape. Ces deux méthodes fonctionnent, mais elles nécessitent des flux de travail différents – et cette différence n’est pas négligeable lorsqu’il s’agit d’évoluer au sein de l’entreprise. La RAG, ou Retrieval-Augmented Generation, est la réponse la plus concrète au problème de l’actualisation et de la précision. Au lieu d'exiger que le modèle « sache tout », on le connecte à des bases de données externes ; il ne récupère que les documents pertinents et les intègre dans sa réponse. Cela peut sembler être une solution de fortune, mais réfléchissez à ceci : même si, à l'avenir, les modèles pouvaient lire l'ensemble du Web en temps réel (spoiler : cela n'arrivera jamais pour des raisons de latence et de coût), nous aurions toujours besoin de systèmes de récupération, tels que les moteurs de recherche, pour des raisons d'efficacité et de traçabilité des sources. Prenons l’exemple des contenus générés peu après la célèbre gaffe « Covfefe » de Trump : le LLM de Twitter n’avait aucune idée de la manière de les gérer, et le système de recommandation est devenu fou. Aujourd'hui, la même chose se produit chaque jour avec l'argot, les néologismes et les tendances. La RAG permet de rester à jour sans avoir à tout réapprendre depuis le début. Passons maintenant aux agents : imaginez un agent du service client. Ce n'est plus seulement un chat qui répond : il extrait des données, consulte la base de données des commandes, vérifie les politiques, met à jour les informations et rédige des e-mails, tout en orchestrant les outils et la mémoire. Mais comment savoir s'il « fonctionne » ? C'est là qu'intervient la question des « evals », des évaluations. On utilise à la fois des indicateurs objectifs – pourcentage de demandes résolues, temps de réponse, exactitude du résultat – et des évaluations subjectives au moyen de LLM juges ou de commentaires humains. Et, point essentiel, chaque étape intermédiaire fait l'objet d'un suivi : si la réponse est impolie, vous pouvez déterminer quelle requête ou quel sous-système a généré le problème. Cette architecture modulaire et traçable constitue la véritable différence entre les logiciels traditionnels, déterministes, et les systèmes flous basés sur des LLM : ici, il ne suffit pas d’écrire un code solide une seule fois ; il faut apprendre à expérimenter, à abandonner des éléments, à itérer et à mettre en place des workflows humains pour corriger les erreurs de l’intelligence artificielle ou les cas où elle déraille. Au niveau des entreprises, McKinsey a estimé que les automatisations par agents peuvent réduire de 20 à 60 % la durée de processus tels que l'évaluation du risque de crédit. Mais le véritable défi n'est pas technique : il s'agit de faire changer les habitudes de milliers de personnes, de réécrire les descriptions de poste et de redéfinir les incitations. C'est pourquoi, même si la technologie progresse rapidement, il faudra des années aux organisations pour se transformer réellement. Une dernière réflexion : aujourd’hui, la véritable valeur ne réside plus dans la construction du modèle le plus imposant, mais dans la capacité à associer des modèles, des outils, des flux de travail et de la mémoire pour résoudre des problèmes réels, mesurables et susceptibles d’être améliorés au fil du temps. Quelle est la différence entre une démonstration et un produit ? Être du côté du système qui orchestre, et pas seulement du modèle qu'il génère. Cette leçon est tirée du cours CS230 de Stanford, automne 2025 : vous venez de gagner près de deux heures de cours.
0shared

Stanford CS230 | Automne 2025 | Cours 8 : Agents, prompts et RAG