Stanford CS230 | Autunno 2025 | Lezione 8: Agenti, prompt e RAG
Englishto
Nel 2016 Microsoft ha lanciato un bot su Twitter per imparare dagli utenti. In meno di un giorno, era diventato talmente razzista che dovettero disattivarlo dopo sole 16 ore. Non si trattava di un team improvvisato: era Microsoft. Eppure, anche con miliardi di dollari e centinaia di ingegneri, controllare davvero un modello di linguaggio rimane un problema irrisolto. Ed ecco la prima crepa nella narrazione comune: pensiamo che un “modello potente” sia sinonimo di “modello utile”. Ma in realtà, la storia recente dei LLM è una lezione gigantesca su quanto sia complicato ottenere output affidabili, aggiornati e, soprattutto, corretti. La tesi di questa lezione: il vero passo avanti non è costruire modelli di base sempre più grandi, ma imparare a orchestrare, correggere e arricchire quelli che già abbiamo. Dai semplici prompt migliori ai veri e propri flussi di lavoro agentici e multi-agente, la differenza tra un giocattolo e un prodotto sta tutta nell'architettura che circonda il modello, non nel modello stesso. Andrew Ng ha dato un nome a questa direzione: “agentic workflows”, ovvero sistemi in cui modelli, strumenti esterni, memoria e API vengono combinati in una catena di azioni autonome. Prendiamo il caso di un'azienda biotech che vuole classificare le recensioni dei clienti. In teoria, basta chiedere al modello: “Questa frase è positiva, neutra o negativa?” Ma il risultato dipende da mille sfumature: per una startup medica, un commento del tipo “è andato tutto bene, ma mi aspettavo di più” può essere negativo, mentre in altri settori sarebbe neutro. Come si allinea un modello alle esigenze reali? Non con più dati o un modello più grande, ma con prompt ingegnerizzati, esempi su misura e, sempre più spesso, pipeline a più passaggi che guidano la generazione, la valutano, la correggono e la adattano al contesto. Un esempio concreto: la catena di prompt. Invece di chiedere tutto in un’unica istruzione, si suddivide il compito in fasi: prima si estraggono i punti chiave, poi si crea una scaletta e infine si scrive la risposta finale. Questo approccio, utilizzato da aziende come Workera, consente di isolare i punti in cui il sistema sbaglia davvero: la scaletta è carente? La risposta finale è troppo fredda? Si può intervenire in modo mirato. E nel mondo degli affari, questa granularità fa la differenza tra una demo e una soluzione affidabile. Un dato curioso: in uno studio su consulenti BCG, chi aveva accesso all'AI e anche a una breve formazione sui prompt superava nettamente sia chi non usava l'AI sia chi la usava “alla cieca”. Non solo: la ricerca ha identificato due stili di collaborazione con i modelli LLM. I «centauri», che delegano interi blocchi come «Fai tu la presentazione e avvisami quando hai finito», e i «cyborg», che lavorano in simbiosi, microinteragendo con il modello in ogni passaggio. Entrambi i metodi funzionano, ma richiedono workflow diversi, e la differenza non è trascurabile quando si scala nell'azienda. RAG, ovvero Retrieval-Augmented Generation, è la risposta più concreta al problema dell'aggiornamento e della precisione. Invece di pretendere che il modello “sappia tutto”, lo si collega a database esterni, recupera solo i documenti pertinenti e li inserisce nella risposta. Può sembrare una soluzione temporanea, ma pensaci: anche se in futuro i modelli potessero leggere tutto il web in tempo reale (spoiler: non accadrà mai per motivi di latenza e costo), continueremmo ad avere bisogno di sistemi di retrieval, come i motori di ricerca, per motivi di efficienza e tracciabilità delle fonti. L'esempio dei contenuti generati poco dopo la famosa gaffe “Covfefe” di Trump: l'LLM di Twitter non aveva idea di come gestirlo e il sistema di raccomandazione impazzì. Oggi la stessa cosa accade ogni giorno con lo slang, i neologismi e le tendenze. RAG consente di stare al passo senza dover riqualificare tutto da zero. Passando agli agenti: pensate a un agente dell'assistenza clienti. Non è più solo una chat che risponde: estrae dati, consulta il database degli ordini, verifica le policy, aggiorna le informazioni e redige e-mail, il tutto orchestrando strumenti e memoria. Ma come si fa a capire se “funziona”? È qui che entra in gioco il tema delle “evals”, le valutazioni. Si utilizzano sia metriche oggettive (percentuale di richieste risolte, tempo di risposta, correttezza dell'output) sia valutazioni soggettive tramite LLM giudici o feedback umani. E, cosa fondamentale, si tiene traccia di ogni step intermedio: se la risposta è scortese, è possibile risalire al prompt o al sottosistema che ha generato il problema. Questa architettura modulare e tracciabile è la vera differenza tra software tradizionale e deterministico e sistemi fuzzy basati su LLM: qui non basta scrivere codice solido una volta, bisogna imparare a sperimentare, scartare parti, iterare e implementare workflow umani per correggere i punti in cui l'intelligenza artificiale sbaglia o va fuori strada. A livello enterprise, McKinsey ha stimato che le automazioni agentiche possono ridurre del 20-60% i tempi di processi come la valutazione del rischio di credito. Ma la vera sfida non è tecnica: è far cambiare abitudini a migliaia di persone, riscrivere job description, ridefinire incentivi. Ecco perché, anche se la tecnologia avanza rapidamente, le organizzazioni impiegheranno anni per trasformarsi davvero. Un'ultima riflessione: oggi il vero valore non sta più nel costruire il modello più grande, ma nel saper combinare modelli, strumenti, workflow e memoria per risolvere problemi reali, misurabili e migliorabili nel tempo. La differenza tra una demo e un prodotto? Stare dalla parte del sistema che orchestra, non solo del modello che genera. Questa lezione proviene dal corso CS230 di Stanford, autunno 2025: hai appena risparmiato quasi due ore di lezione.
0shared

Stanford CS230 | Autunno 2025 | Lezione 8: Agenti, prompt e RAG