史丹佛 CS230 | 2025 年秋季 | 第 8 堂課：代理程式、提示和 RAG

https://www.youtube.com/watch?v=k1njvbBmfsw

Englishto

2016 年，Microsoft 在 Twitter 上推出了一個聊天機器人，旨在向使用者學習。不到一天的時間，這個機器人就變得極度種族主義，以至於他們不得不在短短 16 小時後將其關閉。這可不是一支臨時湊起來的團隊：這是 Microsoft。然而，即使投入了數十億美元和數百名工程師，真正控制一個語言模型仍然是一個未解的問題。這就是普遍說法中的第一個漏洞：我們認為「強大的模型」就等同於「有用的模型」。但實際上，LLM 近期的歷史正是一堂重要的一課，告訴我們要獲得可靠、最新，尤其是正確的輸出結果有多麼複雜。本課的論點是：真正的突破不在於建立越來越大的基礎模型，而在於學會如何協調、修正和強化我們現有的模型。從更好的簡單提示到真正的代理式和多代理式工作流程，玩具和產品之間的區別完全在於模型周圍的架構，而不是模型本身。吳恩達為這個方向命名為「代理工作流程 (agentic workflows)」，即將模型、外部工具、記憶體和 API 結合成一個自主行動鏈的系統。以一家想要對客戶評論進行分類的生物科技公司為例。理論上，只需詢問模型：「這句話是正面、中立還是負面的？」但結果取決於千百個細微差別：對於一家醫療新創公司來說，「一切都很好，但我期望的更多」這樣的評論可能是負面的，而在其他行業中，這則是中立的評論。如何使模型與實際需求保持一致？答案不是提供更多資料或建立更大的模型，而是透過精心設計的提示、量身打造的範例，以及越來越常見的多步驟管道，來引導產生內容、對其進行評估、修正並根據情境進行調整。舉一個具體的例子：提示鏈 (prompt chain)。與其在單一指令中提出所有要求，不如將任務分成幾個階段：首先擷取關鍵要點，接著建立大綱，最後撰寫最終答案。Workera 等公司採用的這種方法可以幫助他們找出系統真正出錯的地方：大綱不夠完善嗎？最終答案是否過於生硬？這樣就可以有針對性地進行調整。在商業領域，這種細緻程度決定了示範與可靠解決方案之間的差異。有一個有趣的數據：在一項針對 BCG 顧問的研究中，那些能夠使用 AI 並接受過簡短提示訓練的人，其表現明顯優於沒有使用 AI 的人和「盲目」使用 AI 的人。不僅如此，這項研究還發現了與 LLM 協作的兩種方式。「半人馬座」型會委派整個任務，例如「你來做簡報，完成後通知我」；「生化人」型則會共生合作，在每個步驟中與模型進行微觀互動。這兩種方法都有效，但需要不同的工作流程——而在企業擴展的過程中，這個差異並非微不足道。RAG（即 Retrieval-Augmented Generation，检索增强生成）是解决更新和准确性问题的最切实可行的方法。與其期望模型「無所不知」，不如將其連接至外部資料庫，只擷取相關文件並將其納入回應中。這聽起來可能像是一種權宜之計，但請想一想：即使未來模型能夠即時讀取整個網路（劇透：由於延遲和成本的原因，這永遠不會發生），為了效率和資源可追溯性，我們仍然需要像搜尋引擎這樣的檢索系統。以川普 (Trump) 著名的「Covfefe」失言後不久產生的內容為例：Twitter 的 LLM 完全不知道該如何處理這個問題，而推薦系統也因此陷入混亂。如今，在處理俚語、新詞和潮流時，每天都會發生同樣的情況。RAG 讓我們能夠跟上時代步伐，而無需從頭開始重新訓練所有系統。接下來談談客服專員：想像一下一位客服專員。它不再只是一個提供回覆的聊天工具：它可以擷取資料、查詢訂單資料庫、檢查政策、更新資訊並撰寫電子郵件，同時協調各種工具和記憶體。但您要如何知道它是否「有效」呢？這就是「evals」（評估）的用武之地。我們同時使用客觀指標（例如：解決的請求百分比、回應時間、輸出的正確性）以及主觀評估（透過 LLM 評判或人工意見回饋）。最重要的是，系統會追蹤每個中間步驟：如果回覆不禮貌，您可以追溯是哪個提示或子系統造成了問題。這種模組化且可追蹤的架構正是傳統的確定性軟體與基於 LLM 的模糊系統之間的真正區別：在這裡，僅僅一次寫出穩健的程式碼是不夠的，我們必須學會進行實驗、丟棄部分內容、反覆迭代，並引入人工工作流程，以便在人工智慧出錯或偏離軌道時進行修正。在企業層面，麥肯錫 (McKinsey) 估計，代理自動化可以將信用風險評估等流程的耗時量減少 20% 至 60%。但真正的挑戰並非技術層面，而是要讓成千上萬的人改變習慣、重新撰寫職務描述、重新定義激勵機制。因此，即使科技日新月異，組織真正實現轉型仍需要數年時間。最後一點思考：如今，真正的價值不再在於建立最大的模型，而在於懂得將模型、工具、工作流程和記憶整合在一起，以解決真實、可衡量且能夠隨著時間推移而改進的問題。示範與產品之間的差異是什麼？站在協調整體系統的一邊，而不僅僅是站在產生模型的一邊。本課程摘自史丹佛大學 2025 年秋季 CS230 課程：您剛剛省下了將近兩小時的課堂時間。

0shared

史丹佛 CS230 | 2025 年秋季 | 第 8 堂課：代理程式、提示和 RAG

I'll take...