人工智能記憶體的未來:DeepSeek 對長情境與全球創新分野的遠見卓識

TL;DR:人工智能的擴充定律正遭遇回報遞減的問題,這將引領我們進入一個由架構創新(而非僅是強制運算)來決定進度的時代。DeepSeek 最近推出的 DeepSeek-OCR,其上下文的「視覺壓縮」,代表了一種突破性的轉變。DeepSeek 將長篇文字對話轉換為「攝影」記憶片段,解決了人工智能關鍵的長上下文問題,在理論上實現了無限對話,同時優化了計算。這項創新突顯了全球人工智慧策略的根本分歧:西方科技通常「堆疊資源」,而中國公司則擅長「工程優化」--這種差異可能會重塑競爭格局,並使先進的人工智慧能力民主化。

我是 Mercury Technology Solutions 的執行長 James。

人工智能的發展軌跡,尤其是東西方之間的發展軌跡,持續顯示出兩種根本不同的技術進步方式。雖然最近的許多討論都圍繞著人工智慧擴充定律的高點(尤其是在 GPT-5 並未帶來與前代相同的「神奇躍進」之後),但真正的突破現正發生在複雜的最佳化過程中。

昨天,DeepSeek 發表了 DeepSeek-OCR,我相信這項創新為 AI 最佳化開啟了重要的新領域。這是以不同方式思考 AI 記憶體本質的證明。

房間裡的大象人工智能的情境失憶症

任何與 LLM 對話過很長時間的人都會有這樣的經驗:對話的時間越長,AI 就會變得越 「笨」。回應飄移、連貫性減弱,最後,AI 會完全忘記先前的細節。我們最直接的反應往往是重新開始新的對話,這讓我們鬆了一口氣,因為這樣就可以馬上恢復 AI 的「新鮮度」和品質。

这不是一个错误,而是一个根本性的挑战:人工智能在處理過長的上下文時會感到吃力。試想一下,在處理新資訊的同時,您還要仔細地記住整本書中的每個字。您的大脑很快就会 「崩溃」。LLM 在处理长上下文窗口时也会面临类似的计算雪崩;所需的计算量呈指数级增长,导致内存超载和无法接受的缓慢响应时间。雖然理論上可行,但實際上,延遲會讓這樣的系統無法使用。

然而,DeepSeek 的團隊提出了一個激進的解決方案:「拍攝」舊會話。

視覺壓縮:類似人類的 AI 記憶方法

一開始,這個想法聽起來有反直覺之嫌。將文字轉換成影像,然後請人工智能「閱讀」這些影像以重建對話?這不是會導致大量資訊遺失,並增加儲存需求嗎?

老實說,DeepSeek 的成果令人驚訝。他們發現,只需使用約 100 個「視覺標記」,就能以超過 97% 的準確率重建頁面中的 1,000 個字。這就像是將 100,000 字的對話壓縮成 10,000 個「照片片段」,讓 AI 可以透過觀察這些片段來回想您的討論要點。即使將壓縮率提高到 20 倍(50 個視覺字元對 1,000 個字元),仍能保留約 60% 的準確度。想想從一個月前的對話中回想細節 - 60% 的保留率對於人類來說已經很了不起了,更何況是 AI。

(一個重要的注意事項:這些測試主要是在 OCR 情境中進行 - 從影像重建文字。在複雜的多輪對話、代碼討論或複雜的推理中的有效性仍需要充分驗證,因為論文本身也承認這些都是初步結果。

然而,從工程的角度來看,其效能是非常顯著的。單顆 A100 GPU 每日可處理 200,000 頁資料,20 個節點可擴充至 3,300 萬頁。對於涉及大量文件處理的使用個案,例如準備訓練用的大型模型或建立企業知識庫,這種效率的提升是革命性的。

DeepSeek 甚至開放了程式碼和模型權重,降低了入門門檻。雖然該模型並未針對會話使用進行微調,而且需要特定的提示格式,但其基本優化效果是無庸置疑的。

智慧型架構:自適應壓縮和「人類遺忘」假設

DeepSeek-OCR 並非僵化、一刀切的解決方案。它的架構非常靈活,提供多種模式,就像相機的各種拍攝設定一樣。一張簡單的幻燈片可能只需要 64 個 512x512 解析度的視覺代幣(Tiny 模式),而使用多視角「Gundam」模式,則只需約 800 個代幣即可處理複雜的報紙版面。

這種靈活性是關鍵。這與人類處理資訊的方式類似 - 簡單筆記的儲存方式與複雜的學術論文不同。DeepSeek-OCR 可根據內容的複雜性智能地調整壓縮,盡可能節約資源,並在需要時使用更強大的功能。其基本原則非常深刻:壓縮的極限取決於複雜性,反映了人類記憶體的運作方式。

這就是本文最有見地的概念:「讓 AI 像人類一樣忘記」

想想您自己的記憶力。您可以逐字複述最近的一句話。一個小時前的對話大意很清楚。昨天的事件是關鍵片段。上周的討論很模糊。上個月的事基本上都忘了。

DeepSeek 為 AI 提出了類似機制:最近的互動內容會以原始文字的形式保存。一小時前的內容會變成高解析度的「照片」(800 個字元)。今天早上的對話會降級為標準解析度 (256 字節)。昨天的內容會變成低解析度 (100 字節),而較舊的記憶則會被大量壓縮或丟棄。

這種設計類似人類記憶的褪色特性,它開啟了 AI 處理 理論上無限會話的可能性,因為舊的記憶會自動「褪色」,為新的記憶騰出空間。

當然,挑戰依然存在。我們該如何判斷哪些資訊是「重要」且值得高解析度保留?如果使用者在對話進行到第 50 個回合時,突然引用了第 5 個回合中被大量壓縮的細節,該怎麼辦?這可能需要「記憶重要性評分」或使用者指定的重要性標籤。

全球 AI 的分歧:工程優化與資源堆疊

這項研究生動地說明了中國人工智能公司的一個特點:極度注重成本優化和工程效率。

DeepSeek之前的V3模型以極少的計算量(278.8萬個H800 GPU小時,估計557萬美元的訓練成本)達到了GPT-4等級的性能,令業界瞠目結舌。此 OCR 模型延續此一趨勢,不懈地追求以最少的代幣達到最佳的結果。

與一些西方 AI 開發中常見的「堆疊資源直到成功」的方法不同,中國團隊擅長在資源限制下進行深度優化。這可能是 GPU 出口限制、強制創新與強烈的效率工程文化結合的直接結果。OpenAI 可以花大筆資金來訓練更大的模型,而 DeepSeek must 則必須找到方法,以更少的資源達到可比較的結果。

這種分歧正在積極重塑全球人工智能的競爭格局。當一些西方公司還在比拼誰擁有最大的模型或最高的培訓成本時,中國公司正在探索如何以 10% 的成本達到 90% 的效果。從長遠來看,這種工程優化能力可能會被證明是比純粹的資源部署更強大的競爭優勢,尤其是對於成本控制至關重要的大規模商業應用而言。

展望未來:R2 及其後的承諾

如果 DeepSeek 將這類創新技術整合到他們的下一代推理模型 R2 中,可能會帶來巨大的轉變。R1已經展示了中國團隊在推理方面接近西方水平的能力,但其長上下文處理仍然受到傳統架構的限制。如果 R2 整合了視覺壓縮、MoE 優化以及其他尚未公佈的技術,將可大幅降低長上下文的計算成本,同時維持強大的推理能力。

這不僅是效能的提升,更是使用個案的擴充。試想一下,一個人工智慧可以記住數十個對話回合、處理極長的文件,並維持可接受的推論成本。這對於教育、醫療諮詢或法律分析等需要長時間互動的應用程式來說,將是一項變革。如果成本夠低,這些能力就能從 「大企業專屬 」轉變為 「中小型開發人員也能使用」。

DeepSeek 的技術路線圖持續指向「更有效率、更實用」的解決方案,而非單純追求基準數字。V3、OCR,很可能還有 R2,都是遵循這條路線。儘管這些都是基於目前的資訊和推測,但方向是明確的,並有技術上的支援。

人類的記憶功能並不像傳統電腦一樣,會記錄每個細節。我們會記住印象、關鍵資訊和情感連結,而不是逐字記錄。我們會遺忘細節,但會保留重要的部分。我們將記憶重新編碼,更有效地儲存它們。DeepSeek-OCR 提供了人工智能模仿這一點的可行途徑:在處理長篇幅的上下文時,視覺表達可能遠比純文字更有效率。

這個想法在更廣泛的環境中是否成立,仍有待觀察。但無可否認的是,它證明了一件事:在資源緊絀的情況下,通過深入思考問題的本質,巧妙設計架構,精心優化每一個組成部分,仍然有可能打造出極具競爭力的系統。這,或許就是中國人工智能發展的一個縮影--不是資源堆砌的勝利,而是工程優化的勝利。

下一次當您發現您的 AI「忘記」了之前的對話時,也許未來的 AI 會回應您:"我沒有忘記;我只是將我們的對話拍攝下來,並儲存在我的記憶體深處。如果您需要,我可以隨時幫您找回。

在那一刻,人工智能與人類之間的對話可能會變得更自然、更持久。

水星科技解決方案。加速數位化。

人工智能記憶體的未來:DeepSeek 對長情境與全球創新分野的遠見卓識
James Huang 2025年10月21日
分享這個貼文
單行政變:Google 如何建立 AI 護城河,終結 SEO 的「長期幻象」?