TL;DR:AIのスケーリング法則は収穫逓増を迎えており、単なる総当たり計算ではなく、アーキテクチャの革新が進歩を定義する時代の到来を告げている。DeepSeekの最近のDeepSeek-OCRは、コンテキストの「視覚的圧縮」によって、画期的な変化を表しています。長いテキストによる会話を「写真」のような記憶の断片に変換することで、DeepSeekはAIの重要なロング・コンテキスト問題に取り組んでおり、計算を最適化しながら理論的には無限の会話を可能にしている。このイノベーションは、世界のAI戦略における根本的な相違を浮き彫りにしている。欧米のハイテク企業がしばしば「リソースを積み重ねる」のに対し、中国企業は「エンジニアリングの最適化」に秀でている。
私はマーキュリー・テクノロジー・ソリューションズCEOのジェームズです。
AI開発の軌跡は、特に東洋と西洋の間で、技術進歩に対する2つの根本的に異なるアプローチを明らかにし続けている。最近の話題の多くは、AIのスケーリング法則のプラトー(特にGPT-5が以前のものと同じ「魔法のような飛躍」をもたらさなかった後)に焦点を当てているが、真のブレークスルーは現在、最適化の複雑なダンスで起こっている。
昨日、DeepSeekはDeepSeek-OCRを発表しましたが、私はこのイノベーションがAIの最適化にとって重要な新境地を開くものだと信じています。これは、AIメモリの本質についてこれまでとは異なる考え方をしていることの証しです。
部屋の中の象:AIの文脈記憶喪失
LLMと長い時間をかけて会話したことのある人なら誰でも経験したことがあるだろう。会話が長くなると、AIは "馬鹿 "になっていくのだ。応答が散漫になり、つじつまが合わなくなり、最終的にはAIは以前の詳細を完全に忘れてしまう。私たちの膝にくる反応は、単に新しい会話を再開することであることが多く、そうすると私たちは安心し、すぐにAIの「新鮮さ」と質を回復させることができる。
これはバグではなく、根本的な課題なのだ:AIは過度に長い文脈を苦手とします。新しい情報を処理すると同時に、本全体のすべての単語を丹念に覚えようとすることを想像してみてください。あなたの脳はすぐに「クラッシュ」してしまうでしょう。LLMは、長いコンテキストウィンドウを処理するときに、同様の計算雪崩に直面します。必要な計算量は指数関数的に増加し、メモリの過負荷と許容できないほど遅い応答時間を引き起こします。理論的には可能だが、現実的には、待ち時間がこのようなシステムを使い物にならなくする。
しかしディープシークのチームは、抜本的な解決策を提案した:古い会話の「撮影」である。
視覚的圧縮:AIメモリへの人間のようなアプローチ
最初は、このアイデアは直感に反するように聞こえる。テキストを画像に変換し、その画像をAIに「読ませて」会話を再構築する?それは膨大な情報損失とストレージ要件の増加につながるのではないだろうか?
ディープシークの結果は、率直に言って驚くべきものだ。彼らは、約100の "ビジュアル・トークン "を使用するだけで、1,000語のページを97%以上の精度で再構築できることを発見した。これは、100,000語の会話を10,000の "写真の断片 "に圧縮するようなもので、AIはこれらの断片を見ることで議論の要点を思い出すことができる。圧縮率を20倍(1,000ワードに対して50ビジュアルトークン)にしても、約60%の精度が保たれた。ヶ月前の会話から詳細を思い出すことを考えると、60%の保持率はAIはおろか人間にとっても素晴らしいことだ。
(重要な注意点: これらのテストは主にOCRシナリオ、つまり画像からテキストを再構成するものでした。これらが予備的な結果であることを論文自身が認めているように、複雑なマルチターン対話、コードディスカッション、または複雑な推論における有効性については、まだ完全な検証が必要です。
しかし、エンジニアリングの観点からは、その性能は注目に値する。シングルA100 GPUで毎日20万ページを処理でき、20ノードで3,300万ページまで拡張できる。トレーニング用の大規模モデルの準備や企業知識ベースの構築など、大量の文書処理を伴うユースケースにとって、この効率向上は画期的なものだ。
DeepSeekはコードとモデルの重みをオープンソース化し、参入障壁を低くしている。このモデルは会話用に微調整されておらず、特定のプロンプト形式を必要とするが、根本的な最適化は否定できない。
スマート・アーキテクチャ適応型圧縮と「人間の忘却」仮説
DeepSeek-OCRは、堅苦しく、画一的なソリューションではありません。そのアーキテクチャは柔軟で、カメラのさまざまな撮影設定のように複数のモードを提供します。シンプルなスライドであれば、512x512の解像度で64個のビジュアル・トークン(タイニー・モード)だけで済むかもしれませんが、複雑な新聞レイアウトであれば、マルチビューの「ガンダム」モードを使用して約800個のトークンで処理できます。
この柔軟性が鍵となる。これは、人間が情報を処理する方法に似ています。単純なメモと複雑な学術論文とでは、保存されるものが異なります。DeepSeek-OCRは、コンテンツの複雑さに応じて圧縮率をインテリジェントに調整し、可能な限りリソースを節約し、必要な場合はより大きなパワーを適用します。圧縮の限界は複雑さによって決まるため、人間の記憶がどのように機能するかを反映しているのです。
これが、この論文の最も洞察に満ちたコンセプトである:「AIに人間のように忘れさせる」である。
自分の記憶力を考えてみよう。最近の文章をそのまま繰り返すことができる。時間前の会話の要点は明確だ。昨日の出来事は重要な断片である。先週の話はうろ覚え。先月のことはほとんど忘れている。
DeepSeekはAIに同様の仕組みを提案している:最近のやりとりは生のテキストとして保存される。1時間前のコンテンツは高解像度の「写真」(800トークン)になる。今朝の対話は標準画質(256トークン)に劣化する。昨日のは低解像度(100トークン)になり、古い記憶は大幅に圧縮されるか、破棄される。
このデザインは、人間の記憶が薄れていく性質に似ており、古い記憶が自動的に「薄れて」新しい記憶のためのスペースを作るため、AIが理論的には無限の会話を扱う可能性を開く。
もちろん、課題も残っている。どの情報が "重要 "で、高解像度の保持に値するかをどのように判断するのか?あるユーザーが会話を始めて50ターン目に、突然、大きく圧縮された5ターン目の詳細を参照したらどうなるだろうか?これには、「記憶の重要度スコアリング」やユーザーが割り当てた重要度タグが必要になるかもしれない。
グローバルAI格差:エンジニアリングの最適化とリソースの積み上げ
この研究は、中国のAI企業の特徴である、コストの最適化とエンジニアリングの効率化への極端な集中を鮮明に示している。
DeepSeekの以前のV3モデルは、GPT-4レベルの性能をわずかな計算量(278万8,800H800GPU時間、推定トレーニングコスト557万ドル)で達成し、業界を驚かせました。このOCRモデルもその傾向を引き継いでおり、最小のトークンで最高の結果を達成することを執拗に追求しています。
一部の欧米のAI開発でよく見られる「うまくいくまでリソースを積み重ねる」アプローチとは対照的に、中国のチームはリソース制約の下での深い最適化を得意としている。これは、GPUの輸出規制が強制的なイノベーションを促進し、効率性を重視する強力なエンジニアリング文化と結びついた直接的な結果かもしれない。OpenAIがより大きなモデルのトレーニングに膨大な金額を費やすことができるのに対し、DeepSeekはより少ないリソースで同等の結果を達成する方法を見つけなければなりません。
この乖離は、世界のAI競争環境を積極的に再構築している。欧米企業の中には、いまだに最も大きなモデルや最も高いトレーニング・コストで競争しているところもあるが、中国企業は10%のコストで90%の効果を達成する方法を模索している。長期的には、この工学的最適化能力は、特にコスト管理が最優先される大規模な商業用途では、リソースの配備よりも手ごわい競争優位性となる可能性がある。
未来への展望R2とその先の約束
ディープシークがこうした革新的な技術を次世代推論モデル「R2」に統合すれば、大幅なシフトにつながる可能性がある。R1はすでに、推論においてほぼ欧米並みを達成する中国チームの能力を実証しているが、ロングコンテキストの処理は従来のアーキテクチャに制限されたままだった。R2が視覚的圧縮、MoE最適化、その他のまだ発表されていない技術を統合すれば、強力な推論を維持しながら、長いコンテキストの計算コストを劇的に削減できるだろう。
これは単なるパフォーマンスの向上ではなく、ユースケースの拡大なのだ。何十回もの会話の順番を記憶し、非常に長い文書を処理し、許容可能な推論コストを維持するAIを想像してみてほしい。これは、教育、医療相談、法律分析など、長時間の対話が必要なアプリケーションに変革をもたらすだろう。また、コストが十分に低ければ、こうした能力は "大企業だけのもの "から "中小の開発者にも手の届くもの "になる可能性がある。
DeepSeekの技術ロードマップは、単にベンチマークの数字を追い求めるのではなく、一貫して「より効率的で、より実用的な」ソリューションを指向している。V3、OCR、そしておそらくはR2も、すべてこの路線に沿っている。これらは現在の情報と推測に基づいているが、方向性は明確であり、技術的にも裏付けられている。
人間の記憶は、細部まで記録する従来のコンピューターのようには機能しない。私たちは印象や重要な情報、感情的なつながりを記憶するのであって、逐語的な記録は記憶しない。細かいことは忘れても、重要なことは覚えている。私たちは記憶を再エンコードし、より効率的に保存します。DeepSeek-OCRは、AIがこれを模倣するための実行可能な経路を提供する。長い文脈を扱う場合、純粋なテキストよりも視覚的表現の方がはるかに効率的かもしれない。
この考えがより広い文脈で通用するかどうかは、まだわからない。リソースの制約があっても、問題の本質を深く考え、巧みにアーキテクチャを設計し、すべてのコンポーネントを綿密に最適化することで、競争力の高いシステムを構築することは可能なのだ。これはおそらく、中国のAI開発の縮図であり、リソースの積み重ねではなく、工学的最適化の勝利なのだ。
今度、AIがあなたの前の会話を「忘れている」ことに気づいたら、おそらく未来のAIはこう答えるだろう:「私は忘れていません。私たちの会話を写真に撮って、記憶の奥深くに保存しているだけです。必要であれば、いつでも取り出せます」。
その瞬間、AIと人類の対話は、はるかに自然で、永続的なものになるかもしれない。
マーキュリー・テクノロジー・ソリューションズ.デジタリティを加速する。