TL;DR: Chain of Thought (CoT) 推理模型透過增強將複雜問題分解為可管理步驟的能力,融合直覺和邏輯推理,正在重塑人工智能。DeepSeek 的獨特方法與 Outcome Reward 訓練透過優先處理創意發散與使用者意圖推測,提供超越傳統模型的顯著優勢。
簡介
人工智能推理模型的世界正在迅速發展,隨著 GPT O3-mini 的發布,我們目睹了這些技術的激增。在探索了 O1、DS 和 Gemini 2 Flash 等各種模型之後,我觀察到 DeepSeek 的 Chain of Thought (CoT) 具有獨特的功能,讓它與眾不同。GPT 擅長精確地執行指令,DeepSeek 則不同,它將問題分解成詳細的步驟,並預測使用者的意圖,通常使用「也許」這樣的推測性語言。
CoT 模型的主要差異
- GPT O1: 以精準執行複雜、高層次的提示著稱,但缺乏創意。
- DeepSeek (DS):對於簡單的提示,會展現優異的發散性思維、創造力和表現力,但對於複雜的指示,可能會有困難。
瞭解差異
這些差異源於不同的訓練方法:DeepSeek 採用「結果獎勵」(Outcome Reward) 訓練方式,而大多數其他大型語言模型 (Large Language Models, LLM) 則採用「過程獎勵」(Process Reward) 訓練方式。讓我們進一步探討這些獎勵系統。
第 1 章:思維連鎖訓練-建立架構
AI 的深度思考能力源自於「耐心的問題分解」結合「直覺的答案定位」。透過鼓勵 AI 像人類一樣分解問題,直覺的猜測就會轉化為邏輯推理。
將 CoT 訓練想像成透過找出邊緣碎片來開始拼圖。它為 AI 提供了「推理地圖」,引導 AI 識別問題、分解步驟、連結邏輯,而不是直接下結論。
範例:減少都市交通壅塞
- Without CoT: 簡單地建議興建更多地鐵。
- * 使用 CoT:
- 分析主要原因,例如太多私家車。
- 提供需求方解決方案,例如公共交通。
- 提出供應方解決方案,例如優化交通燈。
- 建議長期規劃,例如工作居住平衡政策。
第 2 章:過程獎勵:每個正確步驟的小獎勵
流程獎勵讓人工智慧沉浸在人類思考的過程中,專注於導致合理結果的步驟。這種方法類似於 GPS 導航,在轉彎錯誤時會重新計算路線,而不是在抵達目的地時才宣布錯誤的路線。
- 核心技術包括:
- 步驟評分:獨立評估每個推理步驟。
- 邏輯連貫性:確保邏輯鏈不中斷。
第三章:成果獎勵-專注於最後的成功
結果獎勵透過提供模型一個問題和結果,讓它決定中間過程,從而訓練人工智能以人類可理解的方式達到正確答案。
- 人性化設計:
- 偏好類比而非公式。
- 針對受眾調整情境,對工程師與年輕學生使用不同的方法。
第 4 章:獎勵融合-平衡過程與結果
理想的人工智能思維需要在 「理性分解」 與 「感性表達」 之間取得平衡。過程獎勵就像指揮家,引導著每個步驟,而結果獎勵則是觀眾的掌聲,影響著情感的基調。
範例:向孩子解釋落葉的原因
- Pure Process AI: 提供詳細的技術說明。
- Pure Outcome AI: 提供簡單、富想像力的答案。
- * 平衡的 AI:
- 在娓娓道來的同時提供科學解釋。
過程獎勵確保可信度,而結果獎勵則增加同理心,創造出平衡的 AI,將冷冰冰的程式碼轉化成溫暖、親切的互動。
當人工智能學會如何動態平衡這些方法時,它就會轉變為更像人類的助理,既能進行嚴謹的分析,也能進行感同身受的溝通。