Stanford CS230 | Herbst 2025 | Vorlesung 8: Agents, Prompts und RAG

https://www.youtube.com/watch?v=k1njvbBmfsw

Englishto

Im Jahr 2016 startete Microsoft einen Bot auf Twitter, um von den Nutzern zu lernen. In weniger als einem Tag war er so rassistisch geworden, dass man ihn nach nur 16 Stunden abschalten musste. Es war kein improvisiertes Team: Es war Microsoft. Doch selbst mit Milliarden von Dollar und Hunderten von Ingenieuren bleibt die tatsächliche Kontrolle eines Sprachmodells ein ungelöstes Problem. Und hier liegt die erste Schwachstelle in der gängigen Erzählung: Wir gehen davon aus, dass ein „leistungsstarkes Modell“ gleichbedeutend mit einem „nützlichen Modell“ ist. In Wirklichkeit ist die jüngste Geschichte der LLMs jedoch eine gigantische Lektion darüber, wie kompliziert es ist, zuverlässige, aktuelle und – vor allem – korrekte Ergebnisse zu erzielen. Die These dieser Lektion: Der eigentliche Durchbruch besteht nicht darin, immer größere Basismodelle zu entwickeln, sondern zu lernen, wie man die bereits vorhandenen Modelle koordiniert, korrigiert und erweitert. Von einfachen, verbesserten Prompts bis hin zu echten agentenbasierten und multiagenten Workflows liegt der Unterschied zwischen einem Spielzeug und einem Produkt in der Architektur rund um das Modell, nicht im Modell selbst. Andrew Ng hat dieser Richtung einen Namen gegeben: „Agentic Workflows“, d. h. Systeme, bei denen Modelle, externe Tools, Speicher und APIs zu einer Kette autonomer Aktionen kombiniert werden. Nehmen wir das Beispiel eines Biotech-Unternehmens, das Kundenbewertungen klassifizieren möchte. Theoretisch reicht es aus, das Modell zu fragen: „Ist dieser Satz positiv, neutral oder negativ?“ Das Ergebnis hängt jedoch von unzähligen Nuancen ab: Für ein medizinisches Start-up kann ein Kommentar wie „Es lief alles gut, aber ich hatte mehr erwartet“ negativ sein, während er in anderen Branchen neutral wäre. Wie passt man ein Modell an die tatsächlichen Bedürfnisse an? Nicht mit mehr Daten oder einem größeren Modell, sondern mit ausgefeilten Prompts, maßgeschneiderten Beispielen und – immer häufiger – mehrstufigen Pipelines, die die Generierung steuern, bewerten, korrigieren und an den Kontext anpassen. Ein konkretes Beispiel: die Prompt-Kette. Anstatt alles in einer einzigen Anweisung zu erfragen, wird die Aufgabe in Phasen unterteilt: Zuerst werden die Kernpunkte extrahiert, dann wird ein Ablaufplan erstellt und schließlich wird die endgültige Antwort verfasst. Dieser Ansatz, der von Unternehmen wie Workera verwendet wird, ermöglicht es, genau die Bereiche zu identifizieren, in denen das System wirklich Fehler macht: Ist die Gliederung unzureichend? Ist die endgültige Antwort zu kühl? Man kann gezielt eingreifen. Und in der Geschäftswelt macht diese Granularität den Unterschied zwischen einer Demo und einer zuverlässigen Lösung aus. Eine interessante Tatsache: In einer Studie über BCG-Berater schnitten diejenigen, die Zugang zu KI und auch eine kurze Schulung zu Prompts hatten, deutlich besser ab als diejenigen, die KI nicht nutzten, und auch als diejenigen, die sie „blind“ einsetzten. Darüber hinaus hat die Studie zwei Arten der Zusammenarbeit mit LLMs identifiziert. Die „Zentauren“, die ganze Blöcke delegieren, wie „Du erstellst die Präsentation und sagst mir Bescheid, wenn du fertig bist“, und die „Cyborgs“, die in Symbiose arbeiten und bei jedem Schritt in Mikrointeraktion mit dem Modell stehen. Beide Methoden funktionieren, erfordern aber unterschiedliche Workflows – und der Unterschied ist bei der Skalierung im Unternehmen nicht unerheblich. RAG, d. h. Retrieval-Augmented Generation, ist die konkreteste Antwort auf das Problem der Aktualisierung und Genauigkeit. Anstatt zu erwarten, dass das Modell „alles weiß“, wird es mit externen Datenbanken verknüpft, ruft nur die relevanten Dokumente ab und fügt sie in die Antwort ein. Das mag wie ein Behelf erscheinen, aber bedenken Sie Folgendes: Selbst wenn Modelle in Zukunft das gesamte Internet in Echtzeit lesen könnten (Spoiler: Aus Latenz- und Kostengründen wird das nie passieren), würden wir aus Gründen der Effizienz und der Rückverfolgbarkeit der Quellen weiterhin Retrieval-Systeme wie Suchmaschinen benötigen. Ein Beispiel dafür sind die Inhalte, die kurz nach Trumps berühmtem „Covfefe“-Fauxpas generiert wurden: Das LLM von Twitter hatte keine Ahnung, wie es damit umgehen sollte, und das Empfehlungssystem drehte durch. Heute passiert das Gleiche jeden Tag mit Slang, Neologismen und Trends. Mit RAG können Sie auf dem Laufenden bleiben, ohne alles von Grund auf neu trainieren zu müssen. Kommen wir nun zu den Agenten: Stellen Sie sich einen Kundendienstmitarbeiter vor. Es handelt sich nicht mehr nur um einen Chat, der antwortet: Er extrahiert Daten, durchsucht die Bestelldatenbank, prüft Richtlinien, aktualisiert Informationen und verfasst E-Mails – und das alles, indem er Tools und Speicher koordiniert. Aber wie weiß man, ob er „funktioniert“? Hier kommt das Thema „Evals“, also Bewertungen, ins Spiel. Es werden sowohl objektive Metriken – Prozentsatz der gelösten Anfragen, Antwortzeit, Korrektheit des Outputs – als auch subjektive Bewertungen durch LLM-Juroren oder menschliches Feedback verwendet. Und was am wichtigsten ist: Jeder Zwischenschritt wird protokolliert. Wenn die Antwort unhöflich ist, kann man nachvollziehen, welche Eingabeaufforderung oder welches Subsystem das Problem verursacht hat. Diese modulare und nachverfolgbare Architektur ist der eigentliche Unterschied zwischen traditioneller, deterministischer Software und Fuzzy-Systemen, die auf LLMs basieren: Hier reicht es nicht aus, einmal soliden Code zu schreiben – man muss lernen, zu experimentieren, Teile wegzuwerfen, zu iterieren und menschliche Workflows einzusetzen, um zu korrigieren, wo die künstliche Intelligenz Fehler macht oder aus der Bahn gerät. Auf Unternehmensebene hat McKinsey geschätzt, dass die Automatisierung von Agenten die Dauer von Prozessen wie der Kreditrisikobewertung um 20–60 % verkürzen kann. Die eigentliche Herausforderung ist jedoch nicht technischer Natur: Es geht darum, die Gewohnheiten von Tausenden von Menschen zu ändern, Stellenbeschreibungen neu zu formulieren und Anreize neu zu definieren. Aus diesem Grund werden Unternehmen, selbst wenn die Technologie voranschreitet, Jahre brauchen, um sich wirklich zu verändern. Eine letzte Überlegung: Der wahre Wert liegt heute nicht mehr darin, das größte Modell zu entwickeln, sondern darin, Modelle, Tools, Workflows und Speicher miteinander zu verknüpfen, um echte, messbare und im Laufe der Zeit verbesserbare Probleme zu lösen. Was ist der Unterschied zwischen einer Demo und einem Produkt? Auf der Seite des Systems zu stehen, das die Abläufe steuert, und nicht nur auf der Seite des Modells, das es erzeugt. Diese Lektion stammt aus dem Stanford-Kurs CS230, Herbst 2025: Sie haben sich gerade fast zwei Stunden Unterricht erspart.

0shared

Stanford CS230 | Herbst 2025 | Vorlesung 8: Agents, Prompts und RAG

I'll take...