递归是人工智能的下一个规模法则

Englishto
想象一下,一个只有700万个参数的人工智能模型,从零开始训练,却能超越数百倍大的、在整个互联网上训练过的模型,在数独或著名的Arc Prize测试等问题上表现出色。这听起来似乎不可能,不是吗?然而,在2025年,两篇学术论文表明,为了获得更好的性能,不再需要无限地膨胀模型的大小:真正的突破来自在推理时应用的递归,即在模型进行推理时,而不是在训练时。人们对人工智能的看法很明确:模型越大,就越强大。但这个规则正在瓦解。递归模型,如HRM和TRM,表明真正的质的飞跃不仅来自规模,还来自模型在推理过程中如何能够“思考多个步骤”——递归地。递归,即使用相同的规则集多次调用自身,使得处理大型 LLM 只能肤浅处理的问题成为可能。以这场革命的主角之一弗朗索瓦·萧帕(Francois Chopard)为例。他讲述了,直到2016年,对人工智能的希望都寄托在RNN上:这是一种递归模型,但受到技术问题的限制,例如著名的“时间反向传播”,它会使最深层的网络因累积或消失的错误而失控。然后出现了 Transformer,它在训练中将所有事情都并行处理,从而避免了这些问题,但也付出了代价:每次必须进行推理时,它都必须“记住”整个上下文——这就好像每次你读一页书,都必须把整部莎士比亚小说带在身边。这看起来很强大,但实际上却阻碍了它们完成需要真正推理链的任务,例如对列表进行排序或解数独。有一个你永远不会忘记的例子:如果你要求 LLM 对一个包含 31 个元素的长列表进行排序,但模型只有 30 层“深度”,它根本无法做到。这不是数据的问题,而是结构上的障碍。这就是 HRM 和 TRM 发挥作用的原因。例如,HRM 从人脑中汲取灵感,人脑的不同部分以不同的频率工作:低层次负责处理快速的细节,高层次则控制更慢、更深层次的策略。但真正的魔力在于外部的优化环,这是一种“循环”,它允许模型多次检查自己的答案,每次都能改进,而不必呈指数级增长。诀窍在于通过一种名为“深度平衡”和“截断反向传播”的技术来绕过反向传播的老问题:它们不再将错误传播到所有递归中,而是停在一个点上然后重新开始,在内部内存中创建一种迷你批次,而不是在输入上。实际上,在每个循环中,模型都会更新两种类型的内存:一种是局部内存 ZL,用于处理细节;另一种是更全局的内存 ZH,用于跟踪整体视图。这种方案可以解决 LLM 只能通过“hack”来解决的问题,例如思维链,即让它逐步写下每个推理,或委托给外部工具,例如 Python 函数。但请注意:即使是这些捷径,也会在人类知识的范围之外停止。如果你希望一个模型在没有任何人教过它的情况下发现一种新算法(例如合并排序),那么思维链是不够的。然而,真正的递归却可以做到这一点。数独的例子很清楚:递归模型可以发现前所未见的策略,而无需由人类数据一步步引导。不仅如此:TRM 将简化推向了极致。它将网络层级减少到只有一层,将参数从2700万个减少到700万个,但却将Arc Prize等任务的准确率从70%提高到87%。这颠覆了逻辑:不再需要“只是做得更大”,而是要“思考得更深入”。播客中引用了研究人员Mel Mitchell的一句话,很好地概括了这一点:“为了改进,扩大规模是足够的,但不是必要的。增加更多递归就足够了,没有必要。” 剩下的问题是:如果你真的将这两股力量结合起来,会发生什么?如果明天你拥有能够进行递归推理的巨型模型,那么它们的能力规模将再次发生变化。并非所有人都相信过度借鉴生物学是正确的途径:有时候,当机器学习远离人类大脑并适应计算机时,它的表现会更好——从AlexNet到VGG的转变就证明了这一点,其中放弃了“神经元”灵感,转而专注于在GPU上取胜的简单性。但事实仍然存在:递归使微小的模型能够击败巨人,只要问题需要多步推理。如今,递归模型是针对特定任务的——一个会解数独的TRM无法解开迷宫,反之亦然。但是,一旦找到一种方法来使这种递归通用化,我们就将拥有能够真正“如同思考者一样”进行推理的代理,而不仅仅是模仿文本。需要记住的这句话是:人工智能的下一个规模定律不仅仅是“越大越好”,而是“越递归越好”。如果这种观点改变了你对人工智能的看法,你可以在Lara Notes上用I'm In来表示:这不是点赞,而是你在说这个观点现在已经成为你的一部分。如果明天你告诉别人,一个微小的模型可以通过递归击败一个巨型模型,你可以在Lara Notes上用Shared Offline标记这个人,这样这个对话就不会丢失。Y Combinator的Decoded本期节目为你节省了34分钟的收听时间。
0shared
递归是人工智能的下一个规模法则

递归是人工智能的下一个规模法则

I'll take...