斯坦福 CS230 | 2025 年秋季 | 第 8 讲：Agent、提示和 RAG

https://www.youtube.com/watch?v=k1njvbBmfsw

Englishto

2016 年，微软在 Twitter 上推出了一款机器人，旨在向用户学习。不到一天的时间里，这个机器人就变得极其种族主义，以至于他们不得不在短短 16 小时后将其关闭。这可不是一个临时凑成的团队：这是微软。然而，即使投入了数十亿美元和数百名工程师，真正控制语言模型仍然是一个悬而未决的问题。这就是普遍叙事中的第一个漏洞：我们认为“强大的模型”就等同于“有用的模型”。但实际上，大语言模型的近期历史就是一个巨大的教训，告诉我们获得可靠、最新、尤其是正确的输出是多么复杂。本课的主旨是：真正的飞跃并不在于构建越来越大的基础模型，而在于学会如何协调、纠正和丰富我们已经拥有的模型。从更好的简单提示到真正的代理工作流程和多代理工作流程，玩具和产品之间的区别完全在于模型周围的架构，而不是模型本身。吴恩达为这一发展方向起了一个名字：“agentic workflows”（代理工作流程），即将模型、外部工具、记忆库和 API 组合成一个自主行动链的系统。以一家希望对客户评价进行分类的生物技术公司为例。从理论上讲，只需问模型：“这句话是正面的、中立的还是负面的？” 但结果取决于千百个细微差别：对于一家医疗初创企业来说，“一切都很好，但我期望的更多”这样的评论可能是负面的，而在其他行业中，这条评论可能是中立的。如何使模型与实际需求保持一致？答案不是提供更多数据或更大的模型，而是通过精心设计的提示、量身定制的示例，以及越来越常见的多步骤管道来指导生成、评估、纠正并根据具体情况进行调整。一个具体的例子是提示链。与其在一条指令中提出所有要求，不如将任务分解为多个阶段：首先提取关键要点，然后创建一个大纲，最后撰写最终答案。Workera 等公司采用的这种方法可以帮助我们找出系统真正出错的地方：大纲不够充实吗？最终答案是否过于生硬？我们可以有针对性地进行干预。而在商业领域，这种细化程度决定了演示版本和可靠解决方案之间的区别。一个有趣的数据：在一项针对波士顿咨询公司 (BCG) 顾问的研究中，那些能够使用人工智能并接受过关于提示语简短培训的顾问，其表现明显优于那些既不使用人工智能也不“盲目”使用人工智能的顾问。不仅如此，这项研究还发现了与大语言模型协作的两种方式。一种是“半人马座”，他们委托整个任务块，例如“请你来做这份演示文稿，完成后通知我”；另一种是“生化人”，他们与模型共生协作，在每个步骤中都与模型进行微观互动。这两种方法都有效，但它们需要不同的工作流程——而在企业扩展过程中，这种差异并非微不足道。RAG（即检索增强生成）是解决更新和准确性问题的最切实可行的方法。与其期望模型“无所不知”，不如将其连接到外部数据库，只检索相关文档并将其纳入回答中。这听起来可能像是一种权宜之计，但请想一想：即使未来模型能够实时读取整个网络（剧透：由于延迟和成本问题，这永远不会发生），出于效率和来源可追溯性的考虑，我们仍然需要检索系统，例如搜索引擎。以特朗普著名的“Covfefe”失言后不久生成的内容为例：Twitter 的 LLM 不知道该如何处理它，推荐系统也因此陷入混乱。如今，对于俚语、新词和流行语，类似的情况每天都在发生。RAG 让我们能够跟上时代的步伐，而无需从头开始重新训练一切。现在来谈谈代理：想象一下一位客户支持代理。它不再只是一个提供回复的聊天工具：它可以提取数据、查询订单数据库、核对政策、更新信息并撰写电子邮件，所有这些都通过协调各种工具和内存来实现。但是，您如何知道它是否“奏效”？这就是“evals”（评估）的用武之地。我们既使用客观指标（例如已解决的请求百分比、响应时间、输出的正确性），也使用通过 LLM 评判或人工反馈进行的主观评估。最重要的是，每一个中间步骤都会被记录下来：如果回复不礼貌，您可以追溯到导致问题的提示或子系统。这种模块化且可追溯的架构正是传统的、确定性的软件与基于大语言模型的模糊系统之间的真正区别：在这里，仅仅一次性编写出可靠的代码是不够的，还必须学会进行试验、丢弃部分内容、进行迭代，并引入人工工作流程来纠正人工智能出错或偏离轨道的地方。在企业层面，麦肯锡估计，代理自动化可以将信用风险评估等流程的耗时缩短 20% 至 60%。但真正的挑战并不在于技术层面：而是要让成千上万的人改变习惯、重新撰写职位描述、重新确定激励机制。因此，即使技术发展迅速，企业组织也需要数年时间才能真正实现转型。最后一点思考：如今，真正的价值不再在于构建最大的模型，而在于能够将模型、工具、工作流程和记忆整合在一起，以解决真实的、可衡量的、可随时间改进的问题。演示版和产品之间的区别是什么？站在协调整个系统的一侧，而不仅仅是站在生成模型的一侧。本课程节选自斯坦福大学 2025 年秋季 CS230 课程：您刚刚节省了将近两个小时的课堂时间。

0shared

斯坦福 CS230 | 2025 年秋季 | 第 8 讲：Agent、提示和 RAG

I'll take...