Rekursion ist das nächste Skalierungsgesetz in der KI

Englishto

Stell dir ein KI-Modell mit nur 7 Millionen Parametern vor, das von Grund auf trainiert wurde und Modelle übertrifft, die hunderte Male größer sind und im gesamten Internet für Probleme wie Sudoku oder die berühmten Arc-Prize-Tests trainiert wurden. Es scheint unmöglich, oder? Doch im Jahr 2025 zeigten zwei wissenschaftliche Arbeiten, dass es nicht mehr notwendig ist, die Größe der Modelle endlos aufzublähen, um bessere Leistungen zu erzielen: Der eigentliche Durchbruch kommt von der Rekursion, die zum Zeitpunkt der Inferenz angewendet wird, also wenn das Modell denkt, nicht wenn es trainiert. Was man über KI dachte, war klar: Je größer das Modell, desto leistungsfähiger wird es. Aber diese Regel bröckelt. Rekursive Modelle wie HRM und TRM zeigen, dass der eigentliche Qualitätssprung nicht nur von der Skalierung abhängt, sondern auch davon, wie das Modell beim Denken „in mehreren Schritten“ – rekursiv – vorgehen kann. Die Rekursion, also sich selbst mehrmals mit demselben Regelsatz aufzurufen, ermöglicht es, Probleme anzugehen, die die großen LLMs nur oberflächlich angehen. Nehmen wir Francois Chopard, einen der Protagonisten dieser Revolution. Er erzählt, wie bis 2016 die ganze Hoffnung in der KI auf den RNNs lag: rekursive Modelle, die jedoch durch technische Probleme wie die berühmte „Backpropagation through time“ eingeschränkt waren, die die tieferen Netzwerke aufgrund von Fehlern, die sich anhäuften oder verschwanden, verrückt machte. Dann kamen die Transformer, die beim Training alles parallel machen und diese Probleme umgehen, aber einen Preis zahlen: Jedes Mal, wenn sie denken müssen, müssen sie sich den gesamten Kontext „merken“ – als ob du jedes Mal, wenn du eine Seite liest, den gesamten Shakespeare-Roman mit dir herumtragen müsstest. Es scheint leistungsstark zu sein, aber in Wirklichkeit blockiert es sie bei Aufgaben, bei denen echte Denkketten erforderlich sind, wie das Sortieren einer Liste oder das Lösen eines Sudokus. Es gibt ein Beispiel, das du nie vergessen wirst: Wenn du ein LLM bittest, eine Liste mit 31 Elementen zu sortieren, das Modell aber nur 30 „Tiefen“-Ebenen hat, kann es das einfach nicht. Es ist keine Frage der Daten, sondern eine strukturelle Barriere. Deshalb machen HRM und TRM den Unterschied. HRM lässt sich zum Beispiel vom menschlichen Gehirn inspirieren, in dem verschiedene Teile mit unterschiedlichen Frequenzen arbeiten: Es gibt die niedrige Ebene, die schnelle Details verwaltet, und die hohe Ebene, die langsamere und tiefere Strategien steuert. Aber die wahre Magie liegt im äußeren Verfeinerungsring, einer Art „Schleife“, die es dem Modell ermöglicht, seine eigenen Antworten mehrmals zu überprüfen und sie jedes Mal zu verbessern, ohne exponentiell wachsen zu müssen. Und der Trick besteht darin, den alten Fluch der Backpropagation durch eine Technik namens „Deep Equilibrium“ und „Truncated Backpropagation“ zu umgehen: Anstatt die Fehler auf alle Rekursionen zu übertragen, halten sie an einem Punkt an und beginnen erneut, wobei sie eine Art Mini-Batch erstellen, aber im internen Speicher, nicht in den Eingaben. In der Praxis aktualisiert das Modell in jedem Zyklus zwei Arten von Speicher: einen lokalen, ZL, der sich mit den Details befasst, und einen globaleren, ZH, der den Überblick behält. Dieses Schema ermöglicht es, Probleme zu lösen, mit denen LLM nur mit „Hacks“ wie dem Chain of Thought konfrontiert sind, d. h. jede Argumentation Schritt für Schritt schreiben zu lassen oder sie an externe Tools wie Python-Funktionen zu delegieren. Aber Vorsicht: Auch diese Abkürzungen enden dort, wo das menschliche Wissen endet. Wenn du möchtest, dass ein Modell einen neuen Algorithmus – wie den Merge-Sort – entdeckt, ohne dass es ihn jemals gelernt hat, reicht die Chain of Thought nicht aus. Die echte Rekursion hingegen kann dies. Das Beispiel Sudoku ist eindeutig: Das rekursive Modell kann Strategien entdecken, die noch nie zuvor gesehen wurden, ohne dass es Schritt für Schritt von menschlichen Daten geleitet werden muss. Und es gibt noch mehr: Das TRM treibt die Vereinfachung auf die Spitze. Es reduziert die Netzwerkebenen auf nur eine, geht von 27 auf 7 Millionen Parameter über und steigert dennoch die Genauigkeit bei Aufgaben wie Arc Prize von 70 % auf 87 %. Dies stellt die Logik auf den Kopf: Es geht nicht mehr darum, „einfach größer zu werden“, sondern „tiefer zu denken“. Und es gibt einen Satz von Mel Mitchell, einer im Podcast zitierten Forscherin, der diesen Punkt auf den Punkt bringt: „Es ist ausreichend, nicht notwendig, größer zu werden, um sich zu verbessern. Es ist ausreichend, nicht notwendig, mehr Rekursion hinzuzufügen.“ Die Frage, die bleibt, ist: Was passiert, wenn man diese beiden Kräfte wirklich vereint? Wenn du morgen gigantische Modelle hast, die auch rekursiv denken können, wird sich der Umfang dessen, was sie tun können, erneut ändern. Nicht jeder ist davon überzeugt, dass es der richtige Weg ist, sich zu sehr von der Biologie inspirieren zu lassen: Manchmal funktioniert maschinelles Lernen besser, wenn es sich vom menschlichen Gehirn entfernt und an Computer anpasst – wie der Übergang von AlexNet zu VGG zeigt, bei dem „neuronale“ Inspirationen aufgegeben wurden, um sich auf die Einfachheit zu konzentrieren, die gegenüber GPUs gewinnt. Aber die Tatsache bleibt bestehen: Rekursion ermöglicht es winzigen Modellen, Giganten zu schlagen, solange das Problem ein mehrstufiges Denken erfordert. Heutzutage sind rekursive Modelle aufgabenbezogen – ein TRM, das Sudoku lösen kann, kann kein Labyrinth lösen und umgekehrt. Aber sobald ein Weg gefunden wird, diese Rekursion zu verallgemeinern, werden wir Agenten haben, die wirklich „wie denkende Wesen“ denken können und nicht nur Texte imitieren. Der Satz, an den man sich erinnern sollte, lautet: Das nächste Skalengesetz der KI wird nicht nur „je größer, desto besser“ lauten, sondern „je rekursiver, desto besser“. Wenn diese Perspektive deine Denkweise über künstliche Intelligenz verändert hat, kannst du dies auf Lara Notes mit I'm In anzeigen: Es ist kein Like, sondern deine Art zu sagen, dass diese Vision jetzt Teil von dir ist. Und wenn du morgen jemandem erzählst, dass ein winziges Modell dank Rekursion einen Riesen schlagen kann, kannst du die Person auf Lara Notes mit Shared Offline markieren – so geht dieses Gespräch nicht verloren. Diese Folge von Decoded von Y Combinator erspart dir 34 Minuten Hörzeit.

0shared

Rekursion ist das nächste Skalierungsgesetz in der KI

I'll take...