對 DeepSeek 的看法

總而言之,DeepSeek 對大型科技公司的威脅不大,但對一般人和知識工作者而言,卻是一項重大挑戰。

Meta 的首席 AI 科學家 Yann LeCun 如此形容 DeepSeek:

「開放原始碼社群的勝利」。

DeepSeek 冒起的必然性

為什麼我要強調 Yann LeCun 的聲明?

作為一個開源基礎模型,LLaMA不僅誕生了DeepSeek,也啟發了其他專業模型,如阿里巴巴雲的Qwen和聯發科的Breeze。這與 Meta 的開源策略完全吻合:利用全球創新來完善模型,同時吸收反饋意見,以加強自身大型模型的開發。

對於 Meta 來說,技術突破是無可避免的;唯一的不確定性在於哪個團隊會在何時實現這些突破。今天,可能是 DeepSeek;明天,可能是 MediaTek。

DeepSeek 成功的偶然性

有趣的是,DeepSeek 最初專注於加密貨幣挖礦和量化交易。他們聲稱 V3 模型基本上只是一個副業。雖然有人駁斥這種說法,但我個人同意這種說法。如前所述,微調 LLaMA 模型的公司主要不是以 AI 為重心,而是透過這個開放源碼框架來實驗新方法。DeepSeek 和許多 AI 實驗室一樣,偶然發現了一個有效的解決方案。

以下是我的推測:早期的挖礦團隊很可能累積了豐富的技術知識來優化 GPU 叢集運算。報告顯示,他們甚至寫了 PTX(比 CUDA 更低階的語言)來提升效能,更不用說掌握混合精準度、MoE(Mixture of Experts)和多頭注意力機制。他們的成果確實令人印象深刻。

為什麼量化交易公司會深入研究 AI 模型?雖然他們的確切動機還不清楚,但如果 AI 可以分析全球市場並辨識有利可圖的機會,那麼足智多謀的公司追求這樣的發展也就不足為奇了。

DeepSeek 的影響

DeepSeek 已經大大打亂了定價,挑戰了完全依賴大型模型 API 獲取收入的人工智能公司的商業模式。如果 DeepSeek 的方法證實有效,主要廠商可採用此方法開發較小型、特定領域的模型,例如客戶服務、法律諮詢或單一專業醫療諮詢模型,以降低 API 成本,而無需依賴大型、萬能的模型。

回想起 OpenAI 去年的「聖誕 12 天」活動,他們推出了強化微調功能,允許使用者使用最少的範例來微調模型。我曾預感 2025 年將會是低成本、特定領域微調的一年,但 DeepSeek 大幅降低模型訓練的門檻,加速了這個趨勢。

現在,問題來了:是從頭訓練一個模型好,還是微調現有的模型好?

好消息到此為止;壞消息來了...

DeepSeek 的實驗顯示,除了 Scaling Law之外,還有許多方法可以提升模型效能並降低訓練成本。有些人擔心這可能會侵蝕大型 AI 公司的優勢。不過,我相信這對他們來說是一大福音,因為他們的計算資源可以在幾天內複製 DeepSeek 的整個模型,讓小型團隊能夠在新的領域開枝散葉。即使是中等規模的公司,也可以建立或租用運算能力,使用 DeepSeek R1 的玩法來建立具有推理能力的 AI 模型(有些學生團隊已經這麼做了)。

為什麼這是壞消息?

隨著訓練與部署的障礙大幅降低,越來越多公司、團隊與個人將投入開發利基模型。專業人士可能很快就會發現他們的專業知識被 AI 有系統地「破解」。對於企業來說,內部採用 AI 的壓力將會加劇,因為這對所有人來說都是被迫升級。早期採用者將獲得競爭優勢。

簡而言之,AI 將會開始取代某些工作。

除了工作位移之外,還有更黑暗的一面:DeepSeek R1 的對準能力明顯較弱。只要具備一些背景知識,就能輕易繞過其限制,使其成為惡意活動的潛在工具,例如進階詐欺或甚至產生有害內容。DeepSeek 就像一場無法控制的野火:它有可能創造奇跡,但也可能造成廣泛的破壞。

展望未來,我們必須保持警覺,並審慎評估我們所使用的資訊。

總結

雖然某些方面令人擔憂,但 DeepSeek 加速了人類邁向 AGI(人工智慧)的旅程。如果 AGI 無可避免,那麼它所帶來的挑戰遲早必須面對。科技民主化是一把雙刃劍:它能促進創新,但也可能加劇社會分化。當我們邁向 AGI 時,減緩 AI 的負面影響將不再只是學術上的警告,而是一項集體責任。

這是一個發現與創造的黃金時代。我們都是這段變革旅程的見證者和參與者。我期待著更多突破性的成果,也希望我們能在這條道路上明智地前進。

最後,我附上 Nvidia Project Digits 的影像。鑒於所討論的一切,我相信此產品將成為每家公司的標準--每項任務的工具。

對 DeepSeek 的看法
James Huang 2025年2月3日
分享這個貼文
思維鏈DeepSeek 推理模型的獨特方法