斯坦福 CS230 | 2025 年秋季 | 第 8 讲:Agent、提示和 RAG

Englishto
2016 年,微软在 Twitter 上推出了一款机器人,旨在向用户学习。不到一天的时间里,这个机器人就变得极其种族主义,以至于他们不得不在短短 16 小时后将其关闭。这可不是一个临时凑成的团队:这是微软。然而,即使投入了数十亿美元和数百名工程师,真正控制语言模型仍然是一个悬而未决的问题。这就是普遍叙事中的第一个漏洞:我们认为“强大的模型”就等同于“有用的模型”。但实际上,大语言模型的近期历史就是一个巨大的教训,告诉我们获得可靠、最新、尤其是正确的输出是多么复杂。本课的主旨是:真正的飞跃并不在于构建越来越大的基础模型,而在于学会如何协调、纠正和丰富我们已经拥有的模型。从更好的简单提示到真正的代理工作流程和多代理工作流程,玩具和产品之间的区别完全在于模型周围的架构,而不是模型本身。吴恩达为这一发展方向起了一个名字:“agentic workflows”(代理工作流程),即将模型、外部工具、记忆库和 API 组合成一个自主行动链的系统。以一家希望对客户评价进行分类的生物技术公司为例。从理论上讲,只需问模型:“这句话是正面的、中立的还是负面的?” 但结果取决于千百个细微差别:对于一家医疗初创企业来说,“一切都很好,但我期望的更多”这样的评论可能是负面的,而在其他行业中,这条评论可能是中立的。如何使模型与实际需求保持一致?答案不是提供更多数据或更大的模型,而是通过精心设计的提示、量身定制的示例,以及越来越常见的多步骤管道来指导生成、评估、纠正并根据具体情况进行调整。一个具体的例子是提示链。与其在一条指令中提出所有要求,不如将任务分解为多个阶段:首先提取关键要点,然后创建一个大纲,最后撰写最终答案。Workera 等公司采用的这种方法可以帮助我们找出系统真正出错的地方:大纲不够充实吗?最终答案是否过于生硬?我们可以有针对性地进行干预。而在商业领域,这种细化程度决定了演示版本和可靠解决方案之间的区别。一个有趣的数据:在一项针对波士顿咨询公司 (BCG) 顾问的研究中,那些能够使用人工智能并接受过关于提示语简短培训的顾问,其表现明显优于那些既不使用人工智能也不“盲目”使用人工智能的顾问。不仅如此,这项研究还发现了与大语言模型协作的两种方式。一种是“半人马座”,他们委托整个任务块,例如“请你来做这份演示文稿,完成后通知我”;另一种是“生化人”,他们与模型共生协作,在每个步骤中都与模型进行微观互动。这两种方法都有效,但它们需要不同的工作流程——而在企业扩展过程中,这种差异并非微不足道。RAG(即检索增强生成)是解决更新和准确性问题的最切实可行的方法。与其期望模型“无所不知”,不如将其连接到外部数据库,只检索相关文档并将其纳入回答中。这听起来可能像是一种权宜之计,但请想一想:即使未来模型能够实时读取整个网络(剧透:由于延迟和成本问题,这永远不会发生),出于效率和来源可追溯性的考虑,我们仍然需要检索系统,例如搜索引擎。以特朗普著名的“Covfefe”失言后不久生成的内容为例:Twitter 的 LLM 不知道该如何处理它,推荐系统也因此陷入混乱。如今,对于俚语、新词和流行语,类似的情况每天都在发生。RAG 让我们能够跟上时代的步伐,而无需从头开始重新训练一切。现在来谈谈代理:想象一下一位客户支持代理。它不再只是一个提供回复的聊天工具:它可以提取数据、查询订单数据库、核对政策、更新信息并撰写电子邮件,所有这些都通过协调各种工具和内存来实现。但是,您如何知道它是否“奏效”?这就是“evals”(评估)的用武之地。我们既使用客观指标(例如已解决的请求百分比、响应时间、输出的正确性),也使用通过 LLM 评判或人工反馈进行的主观评估。最重要的是,每一个中间步骤都会被记录下来:如果回复不礼貌,您可以追溯到导致问题的提示或子系统。这种模块化且可追溯的架构正是传统的、确定性的软件与基于大语言模型的模糊系统之间的真正区别:在这里,仅仅一次性编写出可靠的代码是不够的,还必须学会进行试验、丢弃部分内容、进行迭代,并引入人工工作流程来纠正人工智能出错或偏离轨道的地方。在企业层面,麦肯锡估计,代理自动化可以将信用风险评估等流程的耗时缩短 20% 至 60%。但真正的挑战并不在于技术层面:而是要让成千上万的人改变习惯、重新撰写职位描述、重新确定激励机制。因此,即使技术发展迅速,企业组织也需要数年时间才能真正实现转型。最后一点思考:如今,真正的价值不再在于构建最大的模型,而在于能够将模型、工具、工作流程和记忆整合在一起,以解决真实的、可衡量的、可随时间改进的问题。演示版和产品之间的区别是什么?站在协调整个系统的一侧,而不仅仅是站在生成模型的一侧。本课程节选自斯坦福大学 2025 年秋季 CS230 课程:您刚刚节省了将近两个小时的课堂时间。
0shared
斯坦福 CS230 | 2025 年秋季 | 第 8 讲:Agent、提示和 RAG

斯坦福 CS230 | 2025 年秋季 | 第 8 讲:Agent、提示和 RAG

I'll take...