递归是人工智能的下一个规模法则

Englishto

想象一下，一个只有700万个参数的人工智能模型，从零开始训练，却能超越数百倍大的、在整个互联网上训练过的模型，在数独或著名的Arc Prize测试等问题上表现出色。这听起来似乎不可能，不是吗？然而，在2025年，两篇学术论文表明，为了获得更好的性能，不再需要无限地膨胀模型的大小：真正的突破来自在推理时应用的递归，即在模型进行推理时，而不是在训练时。人们对人工智能的看法很明确：模型越大，就越强大。但这个规则正在瓦解。递归模型，如HRM和TRM，表明真正的质的飞跃不仅来自规模，还来自模型在推理过程中如何能够“思考多个步骤”——递归地。递归，即使用相同的规则集多次调用自身，使得处理大型 LLM 只能肤浅处理的问题成为可能。以这场革命的主角之一弗朗索瓦·萧帕（Francois Chopard）为例。他讲述了，直到2016年，对人工智能的希望都寄托在RNN上：这是一种递归模型，但受到技术问题的限制，例如著名的“时间反向传播”，它会使最深层的网络因累积或消失的错误而失控。然后出现了 Transformer，它在训练中将所有事情都并行处理，从而避免了这些问题，但也付出了代价：每次必须进行推理时，它都必须“记住”整个上下文——这就好像每次你读一页书，都必须把整部莎士比亚小说带在身边。这看起来很强大，但实际上却阻碍了它们完成需要真正推理链的任务，例如对列表进行排序或解数独。有一个你永远不会忘记的例子：如果你要求 LLM 对一个包含 31 个元素的长列表进行排序，但模型只有 30 层“深度”，它根本无法做到。这不是数据的问题，而是结构上的障碍。这就是 HRM 和 TRM 发挥作用的原因。例如，HRM 从人脑中汲取灵感，人脑的不同部分以不同的频率工作：低层次负责处理快速的细节，高层次则控制更慢、更深层次的策略。但真正的魔力在于外部的优化环，这是一种“循环”，它允许模型多次检查自己的答案，每次都能改进，而不必呈指数级增长。诀窍在于通过一种名为“深度平衡”和“截断反向传播”的技术来绕过反向传播的老问题：它们不再将错误传播到所有递归中，而是停在一个点上然后重新开始，在内部内存中创建一种迷你批次，而不是在输入上。实际上，在每个循环中，模型都会更新两种类型的内存：一种是局部内存 ZL，用于处理细节；另一种是更全局的内存 ZH，用于跟踪整体视图。这种方案可以解决 LLM 只能通过“hack”来解决的问题，例如思维链，即让它逐步写下每个推理，或委托给外部工具，例如 Python 函数。但请注意：即使是这些捷径，也会在人类知识的范围之外停止。如果你希望一个模型在没有任何人教过它的情况下发现一种新算法（例如合并排序），那么思维链是不够的。然而，真正的递归却可以做到这一点。数独的例子很清楚：递归模型可以发现前所未见的策略，而无需由人类数据一步步引导。不仅如此：TRM 将简化推向了极致。它将网络层级减少到只有一层，将参数从2700万个减少到700万个，但却将Arc Prize等任务的准确率从70%提高到87%。这颠覆了逻辑：不再需要“只是做得更大”，而是要“思考得更深入”。播客中引用了研究人员Mel Mitchell的一句话，很好地概括了这一点：“为了改进，扩大规模是足够的，但不是必要的。增加更多递归就足够了，没有必要。” 剩下的问题是：如果你真的将这两股力量结合起来，会发生什么？如果明天你拥有能够进行递归推理的巨型模型，那么它们的能力规模将再次发生变化。并非所有人都相信过度借鉴生物学是正确的途径：有时候，当机器学习远离人类大脑并适应计算机时，它的表现会更好——从AlexNet到VGG的转变就证明了这一点，其中放弃了“神经元”灵感，转而专注于在GPU上取胜的简单性。但事实仍然存在：递归使微小的模型能够击败巨人，只要问题需要多步推理。如今，递归模型是针对特定任务的——一个会解数独的TRM无法解开迷宫，反之亦然。但是，一旦找到一种方法来使这种递归通用化，我们就将拥有能够真正“如同思考者一样”进行推理的代理，而不仅仅是模仿文本。需要记住的这句话是：人工智能的下一个规模定律不仅仅是“越大越好”，而是“越递归越好”。如果这种观点改变了你对人工智能的看法，你可以在Lara Notes上用I'm In来表示：这不是点赞，而是你在说这个观点现在已经成为你的一部分。如果明天你告诉别人，一个微小的模型可以通过递归击败一个巨型模型，你可以在Lara Notes上用Shared Offline标记这个人，这样这个对话就不会丢失。Y Combinator的Decoded本期节目为你节省了34分钟的收听时间。

0shared

递归是人工智能的下一个规模法则

I'll take...