遞迴是 AI 的下一個擴展法則

Englishto
想像一下,一個只有 700 萬個參數的人工智慧模型,從零開始訓練,在數獨或著名的 Arc Prize 測試等問題上,超越了大上百倍、在整個網際網路上訓練過的模型。這似乎是不可能的,對吧?然而,在 2025 年,兩篇學術論文表明,為了獲得更好的性能,不再需要無限地擴大模型的大小:真正的突破來自在推理時(即模型進行推理時,而不是在訓練時)應用遞迴。人們對人工智慧的看法很明確:模型越大,就越強大。但這個規則正在瓦解。HRM 和 TRM 等遞迴模型表明,真正的質的飛躍不僅來自規模,還來自模型在推理過程中如何能夠「思考多個步驟」——遞迴。遞迴,也就是使用相同的規則集多次呼叫自己,使我們能夠解決大型 LLM 只能膚淺處理的問題。以 Francois Chopard 為例,他是這場革命的主角之一。他講述了在 2016 年之前,人工智慧的希望都寄託在 RNN 上:這是一種遞歸模型,但受到技術問題的限制,例如著名的「時間反向傳播」,這會導致最深層的網路因累積或消失的錯誤而失控。然後出現了 Transformer,它們在訓練中平行處理所有事情,並跳過這些問題,但它們要付出代價:每次它們必須推理時,都必須「記住」整個上下文——就像每次你閱讀一頁時,都必須帶著整部莎士比亞的小說一起閱讀。這看起來很強大,但實際上,在需要真正的推理鏈的任務上,例如對清單進行排序或解數獨,它們會遇到瓶頸。有一個你永遠不會忘記的例子:如果你要求 LLM 對一個包含 31 個元素的長清單進行排序,但該模型只有 30 層「深度」,那麼它根本無法做到。這不是資料的問題,而是一個結構性的障礙。這就是 HRM 和 TRM 之所以與眾不同的原因。例如,HRM 從人類大腦中汲取靈感,其中不同的部分以不同的頻率運作:低層級處理快速的細節,高層級控制較慢且更深層的策略。但真正的魔法在於外部的精簡迴圈,這是一種「迴圈」,讓模型可以多次重複相同的答案,每次都能改進,而不必呈指數級增長。其訣竅在於透過一種名為「深度平衡 (deep equilibrium)」和「截斷反向傳播 (truncated backpropagation)」的技術來避開反向傳播的老問題:它們不會在所有遞歸中傳播錯誤,而是在某個點停下來再重新開始,在內部記憶中創建一種迷你批次,而不是在輸入上。實際上,在每個循環中,模型都會更新兩種類型的記憶:一個是處理細節的局部記憶 ZL,另一個是追蹤整體視野的全局記憶 ZH。這種架構可以解決 LLM 只能透過「hack」來處理的問題,例如「chain of thought」,也就是讓它逐步寫下每個推理,或委託給外部工具,例如 Python 函數。但請注意:即使是這些捷徑,也會在人類知識的範圍內停止。如果你希望一個模型在沒有人教過的情況下發現一個新的演算法(例如合併排序),那麼思維鏈是不夠的。然而,真正的遞迴則可以做到。數獨的例子很明顯:遞迴模型可以發現前所未見的策略,而無需人類資料一步步引導。還有更多:TRM 將簡化推向極致。它將網路層級減少到只剩一層,將參數從 2700 萬個減少到 700 萬個,但在 Arc Prize 等任務上的準確度卻從 70% 提高到 87%。這顛覆了邏輯:不再需要「只做得更大」,而是要「思考得更深入」。Podcast 中引用了研究人員 Mel Mitchell 的一句話,這句話正好說明了這一點:「要改進,只需要做得更大,但不一定要做得更大。增加更多遞迴就足夠了,沒有必要。」 剩下的問題是:如果你真的將這兩股力量結合起來,會發生什麼事?如果明天你擁有能夠進行遞歸推理的巨型模型,那麼它們的能力範圍將再次改變。並非每個人都相信過度借鑒生物學是正確的做法:有時,當機器學習遠離人類大腦並適應電腦時,它的表現會更好——從 AlexNet 到 VGG 的轉變就證明了這一點,其中放棄了「神經元」靈感,轉而專注於能勝過 GPU 的簡單性。但事實仍然存在:只要問題需要多步推理,遞歸就能讓微小的模型擊敗巨人。如今,遞歸模型是針對特定任務的——一個能解數獨的 TRM 無法解開迷宮,反之亦然。但一旦找到將這種遞迴一般化的方法,我們就會擁有能夠真正「像思考的生物一樣」推理的代理,而不僅僅是模仿人類。需要記住的句子是:人工智慧的下一個規模定律不僅僅是「越大越好」,而是「越遞歸越好」。如果這個觀點改變了你對人工智慧的看法,你可以在 Lara Notes 上用 I'm In 來表示:這不是一個讚,而是你表示這個觀點現在已成為你的一部分的方式。如果明天你告訴別人,一個微小的模型可以透過遞迴擊敗巨人,你可以在 Lara Notes 上用 Shared Offline 標記此人,這樣這段對話就不會遺失。Y Combinator 的 Decoded 這一集可為你省下 34 分鐘的聆聽時間。
0shared
遞迴是 AI 的下一個擴展法則

遞迴是 AI 的下一個擴展法則

I'll take...