隨著最近 Grok 3 的發行,有必要對主流大型語言模型 (Large Language Models, LLM) 進行一次更新,儘管是主觀的排名。本分析評估了幾個關鍵方面,包括免費和付費選項、網路訂閱和 API 存取,以提供全面的比較。
不同情況下的 LLM 排名
適用於免費使用者:
- Grok 3:xAI 的 Grok 3 於 2025 年 2 月 17 日推出,被視為強大的競爭者,特別是其推理能力以及與 X(前 Twitter)即時資料的整合。 Grok 3 測試版 - 推理代理的時代
- Gemini:Google 的 Gemini 因其多樣化的產生功能以及與 Google 產品的無縫整合而備受肯定,可提升生產力和工作流程自動化。 Google Gemini 評論、評分及功能 2025 | Gartner Peer Insights
- DeepSeek:DeepSeek 模型因其高效的推理能力而備受矚目,尤其是在數學任務方面,這要歸功於其訓練中使用的先進強化學習技術。 DeepSeek 評論:它比 ChatGPT 好嗎?由您決定 - Unite.AI
- GPT:早期的 GPT 機型與較新的機型相比,雖然仍具有相關性,但在免費層中的定位較低。
- Perplexity、Claude、Mistral:這些模型在免費層級的排名較低,這表示在免費使用的情況下,這些模型可能比頂尖競爭者有所限制。然而,Mistral AI 因提供免費 API 存取權而備受注目,這對於特定的使用個案而言可能是有利的。 Mistral AI:最新評論、優勢及指南 (2024) - HyScaler
付費訂閱:
- 模型能力:
- GPT(200 美元一級): GPT-4 因其先進的推理能力和處理複雜任務的能力而備受肯定,其處理的文字量遠大於其前代產品。 OpenAI GPT-4:完整回顧 - 版本 1
- Grok 3、Gemini、Claude、Perplexity:這些機型在能力排名上依循 GPT,表示在要求嚴苛的付費應用程式中,性能等級是分等級的。
- 成本效益:
- Gemini: Gemini 在成本效益方面領先,這可能是由於其具競爭力的定價以及與 Google 服務的整合,包括 2 TB 儲存空間和筆記型電腦 LM。
- Grok 3、GPT ($20 層級)、Perplexity、Claude:與 Gemini 相比,這些機型的成本效益排名較低,顯示相似的效能或功能可能需要較高的成本。
- 生態系統:
- Gemini: Gemini 的生態系統被認為是優越的,受益於 Google 廣泛的整合服務套件。
- GPT、Grok 3、Perplexity、Claude:這些模型的生態系統排名比 Gemini 低,可能表示與其他服務或工具的整合不夠全面。
- AI 編碼:
- GPT(o1 及以上,可能是 GPT-4,也可能是 Code Interpreter): GPT 模型,尤其是進階版本,被認為是 AI 編碼任務的頂尖。
- Claude、Grok 3、Gemini、DeepSeek:這些模型被定位為具有人工智能編碼能力,但對於要求最嚴苛的編碼應用程式而言,其效能可能不如 GPT-4。DeepSeek 儘管在推理上有優勢,但在這次比較中,它在編碼方面的排名較低。
- 撰寫能力:
- Grok 3: Grok 3 利用其「DeepSearch」能力和即時資料存取功能,在書寫能力方面獲得最高評價。 Grok 3 評論:我測試了100+個提示,真相是這樣的(2025) - Writesonic 博客
- DeepSeek、Claude、Gemini、GPT:這些機型在書寫能力方面緊隨 Grok 3,顯示 Grok 3 的獨特功能使其在此領域更具優勢。
網路版本訂閱:
- Grok 3、Gemini、GPT、Perplexity、Claude:Grok 3 和 Gemini 被列為網路訂閱的領先選擇,在此類別中的表現優於 GPT、Perplexity 和 Claude。
模型優勢摘要:
- Grok 3: 強大的綜合能力,包括強大的基礎模型、DeepSearch 功能、進階推理和影像產生。它在各個領域都有頂尖的表現,是非常好的整體選擇。
- Gemini:因其與 Google 服務的整合而提供令人信服的價值主張,在價格、儲存容量 (2TB)、長時間視窗和實用工具 (如筆記型電腦 LM) 等方面具有優勢。它在成本效益和生態系統整合方面表現優異。
- GPT (OpenAI):在特定的高效能情境中,尤其是 OpenAI 深度研究與 Chat-GPT (o1 Pro) 等進階模型,仍是領導者。以快速更新和存取尖端應用程式著稱。在 AI 編碼方面表現優異,對於 AI 應用程式和代理程式而言,穩定且可控。
- Perplexity AI: 一個可行的替代方案,特別是對於尋求 AI 驅動的搜尋引擎替代方案的使用者而言,因為它能夠同時利用不同的模型,並提供來源資訊。 Perplexity AI 評論:頂尖的答案引擎 - BitDegree
- Claude:目前不建議使用,但值得監控,尤其是預期在二月底至 2025 年中發佈的 Claude 4 的效能。 Claude 4.0 將於數週後推出 - 9 公尺
API 呼叫性能:
- Grok 3、Google (Gemini)、GPT、Mistral、Claude:Grok 3 被定位為 API 呼叫的首選,其次是 Gemini 和 GPT。Mistral API 因其免費且適用於不太複雜的任務和自動化而備受注目。
- Grok 3 API:受歡迎,並提及每月可免 150 美元的 信用額。
- Gemini API:因其可用性和成本效益而備受稱讚,包括免費試用和強大的編程能力。Gemini 2.0 Pro 於 2025 年 2 月 5 日發行,因其在世界知識、編碼和長上下文處理方面的品質提升而備受注目。 Gemini 2.0 機型更新: 2.0 Flash、Flash-Lite、Pro Experimental - 關鍵字
- Mistral API:強調為免費選項,對於較簡單的應用程式和自動化工作流程非常有用。
- GPT 與 Claude API: 建議用於需要強大程式模型的應用程式。Grok 和 Gemini API 也是有能力的替代方案。
- GPT 和 Grok API: 由於其穩定性和可控性,是 AI 應用程式、功能呼叫、工作流程、RAG 代理或 AI 代理的首選。
未來機型發佈:
- 隨著 GPT 4.5、Claude 4、Gemini 2.0 Pro 和 DeepSeek R2 等即將推出的版本,預計市場格局將快速演進。這些未來的模型有望帶來進一步的進步,而它們的綜合表現將在本分析的後續更新中進行評估。 值得注意的是,截至 2025 年 1 月,OpenAI 尚未正式宣布 GPT-4.5。 GPT 4.5 發行日期及功能:值得期待 - PromptLayer
本分析提供截至 2025 年 2 月底的 LLM 領域概況,承認排名的主觀性,同時旨在為考慮不同 LLM 訂閱和 API 選項的使用者提供多角度的觀點。