本文討論了 Chain of Thought (CoT) 推理模型,重點在於 DeepSeek 相較於 GPT 等其他模型的獨特方法。
簡介
GPT O3-mini 是市場上的第四個推理模型,它的發布標誌著這一技術的日益普及。在對各種推理模型(O1、DS、Gemini 2 Flash)進行實驗後,我觀察到 DeepSeek 的 CoT 與其他模型相比有顯著的差異。例如,DeepSeek 將問題分解成更詳細的步驟,並經常使用推測(「也許...」)來預測使用者的意圖。相比之下,GPT 的 CoT 著重於執行使用者指令。
主要差異
* GPT O1:擅長執行複雜、高層次的提示,但創意較低。
* DeepSeek (DS):在簡單的提示下,能展現更佳的發散性思維、創造力和表現力。然而,在長時間的指示下,它可能會失去控制,這顯示隨著指示複雜度的增加,其效能也會下降。
根本原因
這些差異源於 DeepSeek 使用結果獎勵訓練,與其他使用過程獎勵訓練的大型語言模型 (LLM) 不同。以下各章將深入探討這兩種獎勵機制。
第 1 章:思考鏈訓練:先建立架構,再加入細節
AI 的深度思考能力來自於 「耐心問題分解」 與 「直覺答案定位」 的結合訓練。迫使 AI 像人類一樣剖析問題,將 「直覺躍進」 轉換成 「邏輯階梯」。
類似於透過尋找邊緣碎片開始拼圖,CoT 訓練提供 AI 一個「推理地圖」。它引導人工智能遵循「識別問題→分解步驟→連結邏輯」的路徑,而不是直接猜測完整的圖畫。
範例:
問題如何減少城市交通阻塞?
* 沒有 CoT:興建更多地鐵。(結果正確,但缺乏可重複使用的思考架構)
* 使用 CoT:
* 分析主要原因:私家車太多
* 需求方解決方案:鼓勵公共運輸/共乘。
* 供應方解決方案:優化交通燈演算法。
* 長期規劃:工住平衡政策。
(可追蹤流程、可調整策略)
第 2 章:過程獎勵:每個正確步驟的小獎勵
過程獎勵教導人工智能許多人類思考的過程,讓它學習人類思考的方式,並使用合理的步驟來執行任務。它不僅著重於答案的正確性,也著重於 AI 的 CoT 是否展現出合理的推論。
就像 GPS 導航一樣,流程獎勵會在每次轉彎錯誤時提醒您「重新計算路線」,而不是在目的地宣布「路線錯誤」。
核心技術:
* 步驟評分:獨立評估推理過程中的每個步驟(例如,數學問題中的中間公式是否合理)。
* 邏輯一致性偵測:確保「因為 A,所以 B」的邏輯鏈不會被斷開(例如,避免「天氣冷→所以多吃西瓜」這樣的跳轉)。
* 類比:老師每堂課都會給舉手發言的學生加分。
第 3 章:結果獎勵:只關注最終的成功或失敗
結果獎勵提供模型一個問題和結果,訓練 AI 獨立決定中間思考過程,直到達成結果。
我們的目標是要讓 AI 明白,正確的答案必須以一種「人類可以理解」的方式來表達。
人性化設計:
* 學習偏好:人類偏好「使用類比來解釋量子力學」,而不是堆砌公式。
* 情景適應:為工程師提供程式碼 + 原理,同時為小學生使用故事 + 插圖。
* 類比:考試只計算最終成績,不考慮日常作業。
第 4 章:獎勵融合:過程與結果同樣重要
理想的人工智慧思維在於 「理性分解 」與 「感性表達 」的共存。就像一個交響樂團,過程獎勵是指指揮家確保每個樂手按照樂譜演奏,而結果獎勵則是觀眾的掌聲決定是否調整旋律的激情。
範例:
* 問題如何向孩子解釋「樹葉為什麼會掉下來」?
* Pure Process AI:逐步解釋脫落層細胞、脫落酸荷爾蒙......(嚴謹但枯燥)。
* 純結果 AI:「大樹冬天要睡覺!」(活潑但缺乏知識)。
* 平衡的 AI:
* 科學層面:秋季光照減少 → 葉片停止製造養分 → 離體細胞分離(過程獎勵監督)。
* 表達層次:大樹就像更換睡衣,脫下舊葉,等待春天穿上新衣!(結果獎勵最佳化)。
過程獎勵和結果獎勵就像是 DNA 的兩條鏈:
* 此流程可確保思考的可信度 (絕無捏造)。
* 結果賦予了表達的共鳴(不說正確的廢話)。
當 AI 學會在兩者之間動態平衡時,冷冰冰的程式碼就會變得溫暖。