人工智能“推理”能力的奇特起源

https://www.theatlantic.com/technology/2026/04/4chan-ai-dungeon-thinking-reasoning/686794/

Englishto

2020 年 7 月，4chan 上的一群游戏玩家发现，当他们要求 AI Dungeon 中的一个虚拟角色“逐步解释”解答一个数学问题时，这个人工智能模型不仅给出了答案，而且还以所选角色的身份给出了答案。令人惊讶的细节在于：他们是世界上最早见证我们现在所说的“思维链”运作的人——这种技术使大型语言模型能够解释推理过程中的各个步骤，而不仅仅是给出最终答案。如今，大型科技公司的营销宣传中经常提到“会推理的模型”、会“在回答之前思考”的聊天机器人，或者能够“展示自身思维”的聊天机器人。但事实是，这项看似是工程学上的突破，其实源于一个臭名昭著的论坛上的一些猥亵笑话和网络梗图。人工智能已经学会像人类一样进行推理的说法，与其背后的技术现实相比，是一个要新得多的叙事。这一切都源于一个误解：我们认为，思维链是模型进行推理的证据，因为它为我们提供了清晰、分步的解释。实际上，该模型只是在模仿它所阅读的文本——其中包括数十万个数学问题的解法，这些解法中充斥着诸如“等等，不对。问题应该是……”、“我应该先检查一下输入内容”和“等等，但在……的情况下……”之类的短语。问题应该是……”、“我应该先检查一下输入内容”和“等等，但是如果……”之类的短语。与其说它在推理，不如说它是在模拟推理。这个故事的主角并非谷歌或 OpenAI 的研究人员，而是一群匿名游戏玩家和一位年轻的计算机爱好者 Zach Robertson。在 4chan 上，在一系列过度夸张的评论中，有人写道：“既然它基于人类语言，那么你就必须像对待一个人一样与它交谈，才能得到有意义的答案，这很有道理。” 与此同时，罗伯逊发表了一篇关于如何通过将问题分解为多个步骤来“增强 GPT-3 能力”的帖子，并于 2020 年 9 月发布了这篇帖子，他当时并不知道自己为人工智能领域最著名的突破之一做出了贡献。如今，他正在斯坦福大学攻读博士学位，但似乎对那项发现几乎没有什么记忆：他的帖子已经消失了，直到有人向他指出这件事，而他对名声也不感兴趣。问题的核心在于：开发人工智能的公司已经开始将这些模型作为“推理模型”来销售，但真正的区别并不在于结构。思维链之所以有效，是因为它增加了语境：问题中的细节越多，模型就越能被引导得出准确的答案。这与向 ChatGPT 提出模糊问题时，通常会得到模糊答案的原理相同。如果你将问题分解为多个步骤，模型就能获得更多关于方向的线索。苹果公司在一项名为《思维错觉》的研究中证明，这些模型可以正确解决问题，但如果在重新表述问题时加入了无关紧要的细节，它们就会失败——在某些情况下，其表现会下降 65%。而且，有时它生成的思维链与最终解决方案并没有真正的联系。有人会说：如果一台机器能把我们骗得如此之惟妙惟肖，以至于看起来它确实在进行推理，那么它就确实在进行推理。但数据却说明了另一回事：思维链是一种语言伎俩，而不是通往机器内部思维的窗口。如果你认为聊天机器人“确实会思考”，那么这个故事会让你不得不深入了解它们的内部运作，发现它们通常只是在扮演某种角色。思维链是精心设计的表演，而不是意识的证明。在 Lara Notes 上，有一个你在其他地方找不到的手势：I'm In。这不是一个心形图标，也不是一个竖起大拇指的手势。这是你的声明：这个想法现在与你有关。如果你想和别人聊聊人工智能思维链是如何在游戏玩家和网络梗之间诞生的，你可以在 Lara Notes 上使用 Shared Offline 标记当时在场的人——因为有些话题值得铭记。本文来自《大西洋月刊》：与阅读原文相比，您刚刚节省了三分钟多的时间。

0shared

人工智能“推理”能力的奇特起源

I'll take...