TL;DR:DeepSeek 是一個開放源碼的人工智能模型,對科技巨頭的威脅極小,但對個人和知識工作者的破壞卻很大。它體現了民主化科技創新的力量,挑戰現有的人工智能商業模式,並加速向小型、特定領域的人工智能應用程式轉移。然而,這種民主化也帶來了職位流失和潛在濫用等風險。
簡介
在不斷演進的人工智慧領域中,DeepSeek 嶄露頭角,它的出現並非威脅到主要的科技公司,而是為個人和知識工作者重塑科技版圖。Meta 的首席 AI 科學家 Yann LeCun 表示,DeepSeek 是「開源社群的勝利」。這項發展突顯了開放原始碼 AI 模型在現今世界所呈現的獨特能力與挑戰。
DeepSeek 冒起的必然性
為什麼要專注於 Yann LeCun 的聲明?它強調了 Meta 開源方法中蕴含的戰略遠見。LLaMA 作為基礎模型,為 DeepSeek 鋪路,並啟發了其他專業模型,如阿里巴巴雲的 Qwen 和聯發科的 Breeze。Meta 的策略是利用全球創新,透過社群回饋來完善和強化其 AI 模型。
對 Meta 而言,DeepSeek 等模型所帶來的技術突破是可以預期的;不確定性在於哪個團隊會率先實現這些突破。今天,是 DeepSeek;明天,另一個實體可能會領先。
DeepSeek 成功的偶然性
值得注意的是,DeepSeek 最初的目標是加密貨幣挖礦和量化交易。據報導,他們的 V3 模型一開始只是一個輔助專案--儘管這一說法受到了一些人的質疑,但卻引起了我的共鳴。微調 LLaMA 模型的公司通常會將 AI 視為新領域來探索,並在此開放源碼框架中試驗各種方法。
早期的挖礦團隊在優化 GPU 叢集運算方面累積了豐富的專業技術。報告顯示,他們甚至採用了比 CUDA 更細緻的語言 PTX 來最大化效能。難怪他們的成就令人印象深刻。
但為什麼量化交易公司會涉足 AI 建模呢?動機可能在於人工智能分析全球市場和找出有利可圖的機會的潛力--對於足智多謀的組織來說,這是一個很有吸引力的前景。
DeepSeek 的影響
DeepSeek 大幅顛覆定價結構,挑戰依賴大型模型 API 賺取收入的 AI 公司。如果有效的話,這種方法可讓主要廠商針對客戶服務、法律諮詢或醫療諮詢等領域開發較小型的專門模型,降低 API 成本,而無需依賴龐大的通用模型。
不久前,OpenAI 在他們的「聖誕 12 天」活動中推出了強化微調功能,允許使用者使用最少的範例來微調模型。我預期 2025 年將會是具成本效益、針對特定領域進行微調的一年。然而,DeepSeek 加快了這個軌跡,降低了模型訓練的門檻。
這提出了一個重要的問題:是從頭訓練一個模型好,還是微調現有模型好?
好消息到此為止;壞消息來了...
DeepSeek 的實驗揭示了許多超越傳統 Scaling Laws 的提升模型效能與降低訓練成本的方法。雖然有些人擔心這可能會削弱主要人工智能公司的優勢,但我認為這是有益的。擁有大量計算資源的公司可以在幾天內複製 DeepSeek 的模型,讓小型團隊能夠進入新領域。即使是中等規模的公司,也可以利用或租用必要的計算能力來建立先進的 AI 模型,一些學生團隊已經證明了這一點。
為什麼這是壞消息?
隨著訓練和部署障礙的降低,更多的實體將開發利基模型,有可能用人工智能「破解」專業知識。企業將面臨更大的壓力,必須在內部採用 AI,這是所有人都必須進行的升級。早期採用者將獲得競爭優勢。
簡而言之,AI 將會開始取代某些工作。
除了工作轉移之外,還有更黑暗的一面:DeepSeek R1 的對準能力很弱。只要有一定的知識,就很容易繞過它的限制,使它成為潛在惡意使用的工具,例如複雜的詐騙或有害內容的產生。DeepSeek 就像一場無法控制的野火:它有可能帶來創新,但也有可能造成廣泛的傷害。
總結
儘管挑戰重重,DeepSeek 仍將人類推向 AGI (人工智慧) 的更近一步。如果 AGI 無可避免,我們就必須及早面對其挑戰。民主化的技術在刺激創新的同時,也可能加深社會的隔閡。隨著我們邁向 AGI,減緩 AI 的負面影響將從學術上的小心謹慎轉變為共同的責任。
我們正活在發現與創造的黃金時代。身為見證者與參與者,我熱切期待更多突破性的進展,並希望我們能明智地引領這條轉型之路。
最後,根據我們的討論,我相信 Nvidia 的 Project Digits 將會成為各家公司的標準--一個適用於各種任務的多功能工具。