TL;DR:凡事堅持使用一種 AI 模型的時代已經結束。在新的 「反重力 」IDE 環境中,您的效率取決於 Model Arbitrage--根據任務的複雜性和模式在不同的模型之間切換。我目前的堆疊?Claude Sonnet 4.5 (Thinking) 是日常工作的主力。Gemini 3 Pro 是多模式專家。而當事情變得災難性時,Claude Opus 4.5 就是「在緊急情況下打破玻璃」的高手。以下是層級結構的細分,以及如何應用這些層級結構的三個實際案例研究。
James here,Mercury Technology Solutions 的執行長。
我最近花了很多時間在 Antigravity(新的 AI 原生 IDE)上。我的團隊經常問我的問題是:「我到底應該使用哪個模型?"我到底應該使用哪個模型?版本太多了"。
我請 ChatGPT-5.1-Thinking 根據最新的基準來驗證我的直覺,結果與我的日常工作流程完全吻合。
如果我們純粹以 綜合編碼能力(架構、重構、除錯、情境視窗)來排序,2025 年後期的階層結構會是這樣:
- Claude作品4.5 (思考) - 建築師
- Claude Sonnet 4.5 (思考) / Gemini 3 Pro (高)-資深工程師
- Claude Sonnet 4.5 / Gemini 3 Pro (Low) - The Fast Iterators (快速迭代器)
- GPT-OSS 120B (Medium) - 開放原始碼備份。
以下是何時使用何種功能的策略細分,接下來是三種特定的使用案例。
名冊:瞭解您的代理
1.重型砲隊Claude Opus 4.5 (思考)
- 角色:員工首席工程師。
- Benchmarks: 主導 SWE-bench Verified (>80% 準確度)。它在複雜推理上勝過 Gemini 3 Pro 和 GPT-5.1 Codex。
- 超能力:深入的推理步驟。它不只是寫程式碼,而是先規劃架構。它在跨檔案相依性上產生較少的幻覺。
- 缺點:昂貴且緩慢。
- 使用情況:您被卡住了。您需要重構核心舊有模組。您需要調試跨越三個微服務的競賽條件。
2.每日駕駛Claude Sonnet 4.5 (思考)
- 角色:資深開發人員。
- Benchmarks: ~77-82% on SWE-bench。
- 超強功能:「Agentic」的甜蜜點。它在呼叫工具、讀取多個檔案和修補錯誤方面都很出色。Thinking" 變體增加了一層穩定性,使它在執行 90% 的任務時都很可靠。
- 使用場合:撰寫功能骨架、標準重構,或將 PRD(產品需求文件)轉化為初始程式碼。這應該是您的預設設定。
3.多模式專家:雙子星 3 Pro (高)
- 角色:前端/UI 專家。
- Benchmarks: 在 Terminal-Bench 和 WebDev Arena 上幾近滿分。
- 超強功能:它擁有龐大的上下文視窗和原生的多模式功能。它可以「看見」您的 UI 螢幕截圖,並比 Claude 更好地修復 CSS。
- 使用情況:您正在建立網頁/應用程式介面、需要根據錯誤的螢幕截圖進行除錯,或正在處理大量的文件 (PDF)。
4.私人選項:GPT-OSS 120B
- 角色:現場實習生。
- Benchmarks: ~62% on SWE-bench。
- 使用時機:您有嚴格的資料隱私要求,禁止使用雲端 API,或者您想要測試開放原始碼工作流程。否則,這是一個備份。
策略案例研究:我們如何使用反重力
一模一樣 "的方法已經死了。以下是我們如何在真實情境中執行 Model Arbitrage。
案例研究 A:「Vibe Coding」衝刺(從 PRD 到原型)
方案:我們需要建立一個新的內部儀表板,用於追蹤 GPU 的使用情況。我們有一個粗略的文字描述 (PRD) 和一個白板草圖。
- 步驟 1 (架構):切換到 Claude Opus 4.5。貼上 PRD。要求它定義專案結構、資料庫模式和 API 端點。
- 原因:Opus 在一開始就減少了結構上的錯誤。糟糕的基礎會毀了整個專案。
- 步驟 2 (執行):切換到 Claude Sonnet 4.5 (思考)。將步驟 1 的架構提供給它,並要求它產生模板程式碼和基本功能。
- 原因:Sonnet 更快、更便宜。它完全遵循 Opus 的藍圖。
- 步驟 3 (UI拋光): 切換至 Gemini 3 Pro (High)。上傳白板草圖的照片和目前 (醜陋) 建立的截圖。要求它「使 CSS 與草圖相符,並修復 flexbox 對齊方式」。
- 原因: Gemini 的視覺功能在視覺除錯方面更勝一籌。
案例研究 B:遺產地獄」重構
情況:三年前撰寫的重要 Python 服務當機。該程式碼是無頭緒的,沒有任何說明文件。
- 動作:立即開啟 Claude Opus 4.5 (思考)。
- 提示:「分析這 15 個檔案。在資料轉換步驟中發生記憶體洩漏。追蹤執行流程,並提出保留邏輯但能修復洩漏的重構方案。"
- 原因:Sonnet 可能會提供一個快速修補程式,但卻會破壞其他東西。Opus 具有「推理深度」,可以在提出手術修復建議之前,將 15 個檔案的整個複雜心智模型牢牢記在「頭腦」中。這是值得額外花費的。
案例研究 C:「前端元件」工廠
情境:我們需要根據 Figma 檔案,為設計系統建立 50 個不同的 React 元件(按鈕、模態、滑桿)。
- 移動: Gemini 3 Pro (High) 或 Sonnet 4.5 (Standard)。
- 原因:這些都是獨立、低複雜度的工作。在這裡使用 Opus 是在燒錢。使用「思考」模型會浪費時間。標準的 Sonnet 或 Gemini High 可以快速、高準確地處理這些工作。
結論:您的堆疊就是您的籌碼。
在 Antigravity 時代,您不只是一位編碼員;您更是一位 Model Orchestrator。
我在 2026 年的預設設定:
- 預設: Claude Sonnet 4.5 (思考)
- UI/Visuals: Gemini 3 Pro (High)
- 危機/建築: Claude Opus 4.5 (思考)
不要再把 AI 模型當成一種宗教,只崇拜一種。把它們當成工具包來看待。您不會用大錘來掛畫框,也不會用螺絲起子來拆牆。
Mercury Technology Solution:加速數位化。