遞迴是 AI 的下一個擴展法則

Englishto

想像一下，一個只有 700 萬個參數的人工智慧模型，從零開始訓練，在數獨或著名的 Arc Prize 測試等問題上，超越了大上百倍、在整個網際網路上訓練過的模型。這似乎是不可能的，對吧？然而，在 2025 年，兩篇學術論文表明，為了獲得更好的性能，不再需要無限地擴大模型的大小：真正的突破來自在推理時（即模型進行推理時，而不是在訓練時）應用遞迴。人們對人工智慧的看法很明確：模型越大，就越強大。但這個規則正在瓦解。HRM 和 TRM 等遞迴模型表明，真正的質的飛躍不僅來自規模，還來自模型在推理過程中如何能夠「思考多個步驟」——遞迴。遞迴，也就是使用相同的規則集多次呼叫自己，使我們能夠解決大型 LLM 只能膚淺處理的問題。以 Francois Chopard 為例，他是這場革命的主角之一。他講述了在 2016 年之前，人工智慧的希望都寄託在 RNN 上：這是一種遞歸模型，但受到技術問題的限制，例如著名的「時間反向傳播」，這會導致最深層的網路因累積或消失的錯誤而失控。然後出現了 Transformer，它們在訓練中平行處理所有事情，並跳過這些問題，但它們要付出代價：每次它們必須推理時，都必須「記住」整個上下文——就像每次你閱讀一頁時，都必須帶著整部莎士比亞的小說一起閱讀。這看起來很強大，但實際上，在需要真正的推理鏈的任務上，例如對清單進行排序或解數獨，它們會遇到瓶頸。有一個你永遠不會忘記的例子：如果你要求 LLM 對一個包含 31 個元素的長清單進行排序，但該模型只有 30 層「深度」，那麼它根本無法做到。這不是資料的問題，而是一個結構性的障礙。這就是 HRM 和 TRM 之所以與眾不同的原因。例如，HRM 從人類大腦中汲取靈感，其中不同的部分以不同的頻率運作：低層級處理快速的細節，高層級控制較慢且更深層的策略。但真正的魔法在於外部的精簡迴圈，這是一種「迴圈」，讓模型可以多次重複相同的答案，每次都能改進，而不必呈指數級增長。其訣竅在於透過一種名為「深度平衡 (deep equilibrium)」和「截斷反向傳播 (truncated backpropagation)」的技術來避開反向傳播的老問題：它們不會在所有遞歸中傳播錯誤，而是在某個點停下來再重新開始，在內部記憶中創建一種迷你批次，而不是在輸入上。實際上，在每個循環中，模型都會更新兩種類型的記憶：一個是處理細節的局部記憶 ZL，另一個是追蹤整體視野的全局記憶 ZH。這種架構可以解決 LLM 只能透過「hack」來處理的問題，例如「chain of thought」，也就是讓它逐步寫下每個推理，或委託給外部工具，例如 Python 函數。但請注意：即使是這些捷徑，也會在人類知識的範圍內停止。如果你希望一個模型在沒有人教過的情況下發現一個新的演算法（例如合併排序），那麼思維鏈是不夠的。然而，真正的遞迴則可以做到。數獨的例子很明顯：遞迴模型可以發現前所未見的策略，而無需人類資料一步步引導。還有更多：TRM 將簡化推向極致。它將網路層級減少到只剩一層，將參數從 2700 萬個減少到 700 萬個，但在 Arc Prize 等任務上的準確度卻從 70% 提高到 87%。這顛覆了邏輯：不再需要「只做得更大」，而是要「思考得更深入」。Podcast 中引用了研究人員 Mel Mitchell 的一句話，這句話正好說明了這一點：「要改進，只需要做得更大，但不一定要做得更大。增加更多遞迴就足夠了，沒有必要。」剩下的問題是：如果你真的將這兩股力量結合起來，會發生什麼事？如果明天你擁有能夠進行遞歸推理的巨型模型，那麼它們的能力範圍將再次改變。並非每個人都相信過度借鑒生物學是正確的做法：有時，當機器學習遠離人類大腦並適應電腦時，它的表現會更好——從 AlexNet 到 VGG 的轉變就證明了這一點，其中放棄了「神經元」靈感，轉而專注於能勝過 GPU 的簡單性。但事實仍然存在：只要問題需要多步推理，遞歸就能讓微小的模型擊敗巨人。如今，遞歸模型是針對特定任務的——一個能解數獨的 TRM 無法解開迷宮，反之亦然。但一旦找到將這種遞迴一般化的方法，我們就會擁有能夠真正「像思考的生物一樣」推理的代理，而不僅僅是模仿人類。需要記住的句子是：人工智慧的下一個規模定律不僅僅是「越大越好」，而是「越遞歸越好」。如果這個觀點改變了你對人工智慧的看法，你可以在 Lara Notes 上用 I'm In 來表示：這不是一個讚，而是你表示這個觀點現在已成為你的一部分的方式。如果明天你告訴別人，一個微小的模型可以透過遞迴擊敗巨人，你可以在 Lara Notes 上用 Shared Offline 標記此人，這樣這段對話就不會遺失。Y Combinator 的 Decoded 這一集可為你省下 34 分鐘的聆聽時間。

0shared

遞迴是 AI 的下一個擴展法則

I'll take...