史丹佛 CS230 | 2025 年秋季 | 第 8 堂課:代理程式、提示和 RAG
Englishto
2016 年,Microsoft 在 Twitter 上推出了一個聊天機器人,旨在向使用者學習。不到一天的時間,這個機器人就變得極度種族主義,以至於他們不得不在短短 16 小時後將其關閉。這可不是一支臨時湊起來的團隊:這是 Microsoft。然而,即使投入了數十億美元和數百名工程師,真正控制一個語言模型仍然是一個未解的問題。這就是普遍說法中的第一個漏洞:我們認為「強大的模型」就等同於「有用的模型」。但實際上,LLM 近期的歷史正是一堂重要的一課,告訴我們要獲得可靠、最新,尤其是正確的輸出結果有多麼複雜。本課的論點是:真正的突破不在於建立越來越大的基礎模型,而在於學會如何協調、修正和強化我們現有的模型。從更好的簡單提示到真正的代理式和多代理式工作流程,玩具和產品之間的區別完全在於模型周圍的架構,而不是模型本身。吳恩達為這個方向命名為「代理工作流程 (agentic workflows)」,即將模型、外部工具、記憶體和 API 結合成一個自主行動鏈的系統。以一家想要對客戶評論進行分類的生物科技公司為例。理論上,只需詢問模型:「這句話是正面、中立還是負面的?」 但結果取決於千百個細微差別:對於一家醫療新創公司來說,「一切都很好,但我期望的更多」這樣的評論可能是負面的,而在其他行業中,這則是中立的評論。如何使模型與實際需求保持一致?答案不是提供更多資料或建立更大的模型,而是透過精心設計的提示、量身打造的範例,以及越來越常見的多步驟管道,來引導產生內容、對其進行評估、修正並根據情境進行調整。舉一個具體的例子:提示鏈 (prompt chain)。與其在單一指令中提出所有要求,不如將任務分成幾個階段:首先擷取關鍵要點,接著建立大綱,最後撰寫最終答案。Workera 等公司採用的這種方法可以幫助他們找出系統真正出錯的地方:大綱不夠完善嗎?最終答案是否過於生硬?這樣就可以有針對性地進行調整。在商業領域,這種細緻程度決定了示範與可靠解決方案之間的差異。有一個有趣的數據:在一項針對 BCG 顧問的研究中,那些能夠使用 AI 並接受過簡短提示訓練的人,其表現明顯優於沒有使用 AI 的人和「盲目」使用 AI 的人。不僅如此,這項研究還發現了與 LLM 協作的兩種方式。「半人馬座」型會委派整個任務,例如「你來做簡報,完成後通知我」;「生化人」型則會共生合作,在每個步驟中與模型進行微觀互動。這兩種方法都有效,但需要不同的工作流程——而在企業擴展的過程中,這個差異並非微不足道。RAG(即 Retrieval-Augmented Generation,检索增强生成)是解决更新和准确性问题的最切实可行的方法。與其期望模型「無所不知」,不如將其連接至外部資料庫,只擷取相關文件並將其納入回應中。這聽起來可能像是一種權宜之計,但請想一想:即使未來模型能夠即時讀取整個網路(劇透:由於延遲和成本的原因,這永遠不會發生),為了效率和資源可追溯性,我們仍然需要像搜尋引擎這樣的檢索系統。以川普 (Trump) 著名的「Covfefe」失言後不久產生的內容為例:Twitter 的 LLM 完全不知道該如何處理這個問題,而推薦系統也因此陷入混亂。如今,在處理俚語、新詞和潮流時,每天都會發生同樣的情況。RAG 讓我們能夠跟上時代步伐,而無需從頭開始重新訓練所有系統。接下來談談客服專員:想像一下一位客服專員。它不再只是一個提供回覆的聊天工具:它可以擷取資料、查詢訂單資料庫、檢查政策、更新資訊並撰寫電子郵件,同時協調各種工具和記憶體。但您要如何知道它是否「有效」呢?這就是「evals」(評估)的用武之地。我們同時使用客觀指標(例如:解決的請求百分比、回應時間、輸出的正確性)以及主觀評估(透過 LLM 評判或人工意見回饋)。最重要的是,系統會追蹤每個中間步驟:如果回覆不禮貌,您可以追溯是哪個提示或子系統造成了問題。這種模組化且可追蹤的架構正是傳統的確定性軟體與基於 LLM 的模糊系統之間的真正區別:在這裡,僅僅一次寫出穩健的程式碼是不夠的,我們必須學會進行實驗、丟棄部分內容、反覆迭代,並引入人工工作流程,以便在人工智慧出錯或偏離軌道時進行修正。在企業層面,麥肯錫 (McKinsey) 估計,代理自動化可以將信用風險評估等流程的耗時量減少 20% 至 60%。但真正的挑戰並非技術層面,而是要讓成千上萬的人改變習慣、重新撰寫職務描述、重新定義激勵機制。因此,即使科技日新月異,組織真正實現轉型仍需要數年時間。最後一點思考:如今,真正的價值不再在於建立最大的模型,而在於懂得將模型、工具、工作流程和記憶整合在一起,以解決真實、可衡量且能夠隨著時間推移而改進的問題。示範與產品之間的差異是什麼?站在協調整體系統的一邊,而不僅僅是站在產生模型的一邊。本課程摘自史丹佛大學 2025 年秋季 CS230 課程:您剛剛省下了將近兩小時的課堂時間。
0shared

史丹佛 CS230 | 2025 年秋季 | 第 8 堂課:代理程式、提示和 RAG