TL;DR: AI의 확장 법칙이 한계에 부딪히면서 무차별 연산이 아닌 아키텍처 혁신이 발전을 정의하는 시대가 열리고 있습니다. 문맥의 '시각적 압축'을 지원하는 딥시크의 최근 딥시크-OCR은 획기적인 변화를 나타냅니다. 긴 텍스트 대화를 "사진 같은" 메모리 조각으로 변환함으로써, 딥시크는 AI의 중요한 긴 맥락 문제를 해결하고 컴퓨팅을 최적화하는 동시에 이론적으로 무한한 대화를 가능하게 합니다. 이러한 혁신은 글로벌 AI 전략의 근본적인 차이를 강조합니다. 서구 기술이 종종 '리소스 스택'에 집중하는 반면, 중국 기업은 '엔지니어링 최적화'에 탁월하며, 이는 경쟁 환경을 재편하고 고급 AI 기능을 대중화할 수 있는 차이점입니다.
저는 머큐리 테크놀로지 솔루션의 CEO 제임스입니다.
특히 동양과 서양의 AI 개발 궤적은 기술 발전에 대한 근본적으로 다른 두 가지 접근 방식을 계속해서 드러내고 있습니다. 최근 많은 논의가 AI 확장 법칙의 정체기에 대한 인식, 특히 GPT-5가 이전 버전과 같은 '마법의 도약'을 제공하지 못한 이후를 중심으로 이루어졌지만, 이제 진정한 돌파구는 복잡한 최적화의 춤에서 일어나고 있습니다.
어제 딥시크는 딥시크-OCR을 공개했는데, 저는 이 혁신이 AI 최적화를 위한 중요한 새 지평을 열었다고 생각합니다. 이는 AI 메모리의 본질을 다르게 생각한다는 증거입니다.
방 안의 코끼리: AI의 문맥 기억상실증
대화가 길어질수록 인공지능은 점점 더 '멍청해지는' 경험을 해본 사람이라면 누구나 한 번쯤은 해봤을 것입니다. 응답이 오락가락하고 일관성이 떨어지며, 결국 AI는 이전의 세부 사항을 완전히 잊어버리게 됩니다. 이에 대한 우리의 즉각적인 반응은 단순히 새로운 대화를 다시 시작하는 것인데, 다행히도 이 경우 AI의 '신선함'과 품질이 즉시 회복됩니다.
이것은 버그가 아니라 근본적인 문제입니다: AI는 지나치게 긴 문맥에 어려움을 겪습니다. 책 한 권의 모든 단어를 꼼꼼하게 기억하는 동시에 새로운 정보를 처리하려고 한다고 상상해 보세요. 당신의 뇌는 금방 "충돌"할 것입니다 LLM도 긴 컨텍스트 창을 처리할 때 비슷한 계산의 눈사태에 직면하게 되며, 필요한 계산이 기하급수적으로 증가하여 메모리 과부하가 발생하고 응답 시간이 용납할 수 없을 정도로 느려집니다. 이론적으로는 가능하지만 실제로는 지연 시간으로 인해 이러한 시스템을 사용할 수 없게 됩니다.
그러나 DeepSeek의 팀은 근본적인 해결책을 제안했습니다: <바로 오래된 대화를 '촬영'하는 것입니다
시각적 압축: AI 메모리에 대한 인간과 유사한 접근 방식
처음에는 이 아이디어가 직관적이지 않게 들릴 수 있습니다. 텍스트를 이미지로 변환한 다음 AI에게 그 이미지를 '읽어' 대화를 재구성해 달라고 요청한다고요? 그러면 엄청난 정보 손실과 스토리지 요구 사항이 증가하지 않을까요?
DeepSeek의 결과는 솔직히 놀랍습니다. 그들은 약 100개의 "시각적 토큰"만 사용하여 1,000개의 단어로 이루어진 페이지를 97% 이상의 정확도로 재구성할 수 있다는 사실을 발견했습니다 이는 마치 100,000단어 대화를 10,000개의 '사진 조각'으로 압축하는 것과 같으며, AI는 이러한 조각을 보고 토론의 요점을 기억할 수 있습니다. 압축 비율을 20배(1,000단어에 50개의 비주얼 토큰)로 높여도 약 60%의 정확도를 유지했습니다. 한 달 전 대화의 세부 사항을 기억해낸다고 생각해 보세요. AI는 말할 것도 없고 인간에게도 60%의 기억력은 인상적인 수치입니다.
<(중요한 주의 사항: 이 테스트는 주로 이미지에서 텍스트를 재구성하는 OCR 시나리오에서 진행되었습니다. 복잡한 멀티턴 대화, 코드 토론 또는 복잡한 추론에서의 효과는 논문 자체에서 예비 결과임을 인정하고 있으므로 여전히 완전한 검증이 필요합니다.)
그러나 엔지니어링 관점에서 보면 그 성능은 놀랍습니다. 단일 A100 GPU는 매일 20만 페이지를 처리할 수 있으며, 20개의 노드를 사용하면 3,300만 페이지까지 확장할 수 있습니다. 교육용 대규모 모델 준비나 엔터프라이즈 지식 기반 구축과 같이 대규모 문서 처리가 필요한 사용 사례의 경우 이러한 효율성 향상은 혁신적입니다.
딥시크는 코드와 모델 가중치까지 오픈소스화하여 진입 장벽을 낮췄습니다. 이 모델은 대화용으로 미세 조정되지 않았고 특정 프롬프트 형식이 필요하지만, 기본 최적화는 부인할 수 없습니다.
스마트 아키텍처: 적응형 압축과 "인간의 망각" 가설
DeepSeek-OCR은 딱딱하고 획일화된 솔루션이 아닙니다. 카메라의 다양한 촬영 설정처럼 여러 모드를 제공하는 유연한 아키텍처를 갖추고 있습니다. 간단한 슬라이드는 512x512 해상도(작은 모드)에서 64개의 비주얼 토큰만 필요하지만, 복잡한 신문 레이아웃은 멀티뷰 '건담' 모드를 사용하여 약 800개의 토큰으로 처리할 수 있습니다.
이러한 유연성이 핵심입니다. 이는 인간이 정보를 처리하는 방식과 유사합니다. 간단한 메모는 복잡한 학술 논문과 다르게 저장됩니다. DeepSeek-OCR은 콘텐츠 복잡성에 따라 지능적으로 압축을 조정해 가능한 경우 리소스를 절약하고 필요할 때는 더 많은 용량을 적용합니다. 압축의 한계는 복잡성에 따라 달라지며, 이는 인간의 기억이 작동하는 방식을 반영하는 심오한 원리입니다.
이 논문에서 가장 통찰력 있는 개념을 소개합니다: "AI도 인간처럼 잊게 하자."
자신의 기억을 떠올려 보세요. 최근의 문장을 그대로 반복할 수 있습니다. 한 시간 전 대화의 요점은 명확합니다. 어제의 사건은 핵심적인 단편입니다. 지난 주 논의는 흐릿합니다. 지난 달의 대화는 거의 잊혀져 있습니다.
딥시크는 최근의 상호작용을 원시 텍스트로 보관하는 유사한 메커니즘을 AI에 제안합니다. 한 시간 전의 콘텐츠는 고해상도 '사진'(800토큰)이 됩니다. 오늘 아침의 대화는 표준 해상도(256토큰)로 저하됩니다. 어제의 대화는 저해상도(100토큰)가 되고, 오래된 기억은 크게 압축되거나 버려집니다.
이 설계는 인간 기억의 희미해지는 특성과 유사하며, 오래된 기억은 새로운 기억을 위한 공간을 만들기 위해 자동으로 '희미해지기' 때문에 AI가 <이론적으로 무한한 대화>를 처리할 수 있는 가능성을 열어줍니다.
물론 해결해야 할 과제도 남아 있습니다. 어떤 정보가 '중요'하고 고해상도로 보존할 가치가 있는지 어떻게 판단할 수 있을까요? 50회차 대화에 참여한 사용자가 갑자기 5회차 대화에서 압축이 심했던 세부 정보를 언급한다면 어떻게 될까요? 이 경우 '메모리 중요도 점수' 또는 사용자가 지정한 중요도 태그가 필요할 수 있습니다.
글로벌 AI 격차: 엔지니어링 최적화 대 리소스 스태킹
이 연구는 중국 AI 기업의 특징 중 하나인 비용 최적화와 엔지니어링 효율성에 극도로 집중하는 모습을 생생하게 보여줍니다
딥시큐어의 이전 V3 모델은 적은 컴퓨팅(278만 H800 GPU 시간, 약 557만 달러의 훈련 비용)으로 GPT-4 수준의 성능을 달성하여 업계를 놀라게 했습니다. 이 OCR 모델은 이러한 추세를 이어받아 최소한의 토큰으로 최상의 결과를 얻기 위해 끊임없이 노력하고 있습니다.
일부 서구 AI 개발에서 흔히 볼 수 있는 "작동할 때까지 리소스를 쌓아두는" 접근 방식과 달리, 중국 팀은 리소스 제약 하에서 심층 최적화에 탁월한 능력을 발휘합니다. 이는 GPU 수출 제한으로 인한 강제적인 혁신과 효율성을 중시하는 강력한 엔지니어링 문화의 직접적인 결과일 수 있습니다. OpenAI는 대규모 모델을 훈련하는 데 막대한 비용을 소모할 수 있지만, DeepSeek는 더 적은 비용으로 비슷한 결과를 얻을 수 있는 방법을 찾아야 합니다.
이러한 차이는 글로벌 AI 경쟁 환경을 적극적으로 재편하고 있습니다. 일부 서구 기업들은 여전히 누가 가장 큰 모델이나 가장 높은 훈련 비용을 보유하고 있는지를 놓고 경쟁하고 있지만, 중국 기업들은 10%의 비용으로 90%의 효과를 달성하는 방법을 모색하고 있습니다. 장기적으로 이러한 엔지니어링 최적화 역량은 특히 비용 관리가 가장 중요한 대규모 상업용 애플리케이션에서 단순한 리소스 배치보다 더 강력한 경쟁 우위가 될 수 있습니다.
앞으로의 전망: R2와 그 이후의 약속
DeepSeek가 이러한 유형의 혁신적인 기술을 차세대 추론 모델인 R2에 통합하면 상당한 변화를 가져올 수 있습니다. R1은 이미 중국 팀이 추론에서 서구와 거의 동등한 수준을 달성할 수 있는 능력을 입증했지만, 긴 컨텍스트 처리는 기존 아키텍처로 인해 여전히 제한적이었습니다. R2가 시각적 압축, MoE 최적화 및 아직 발표되지 않은 기타 기술을 통합하면 강력한 추론을 유지하면서 긴 컨텍스트의 계산 비용을 획기적으로 줄일 수 있습니다.
이는 단순한 성능 향상이 아니라 사용 사례의 확장을 의미합니다. 수십 차례의 대화 내용을 기억하고, 매우 긴 문서를 처리하며, 추론 비용을 적정 수준으로 유지하는 AI를 상상해 보세요. 이는 교육, 의료 상담, 법률 분석과 같이 광범위한 상호 작용이 필요한 애플리케이션에 혁신적일 것입니다. 그리고 비용이 충분히 낮아진다면 이러한 기능은 "대기업의 전유물"에서 "중소 개발자가 접근할 수 있는 기능"으로 바뀔 수 있습니다
딥시크의 기술 로드맵은 단순히 벤치마크 수치를 쫓는 것이 아니라 "더 효율적이고 실용적인" 솔루션을 지향합니다. V3, OCR, 그리고 아마도 R2도 모두 이 경로를 따르고 있습니다. 이는 현재의 정보와 추측에 기반한 것이지만, 방향은 명확하고 기술적으로 뒷받침됩니다.
인간의 기억은 기존의 컴퓨터처럼 모든 세부 사항을 기록하는 방식으로 작동하지 않습니다. 우리는 인상, 핵심 정보, 감정적 연관성을 기억하는 것이지 문자 그대로의 기록을 기억하는 것이 아닙니다. 세부적인 것은 잊어버리지만 중요한 것은 기억합니다. 우리는 기억을 다시 인코딩하여 더 효율적으로 저장합니다. 긴 문맥을 처리할 때는 순수한 텍스트보다 시각적 표현이 훨씬 더 효율적일 수 있기 때문에, DeepSeek-OCR은 AI가 이를 모방할 수 있는 실행 가능한 경로를 제공합니다.
이 아이디어가 더 넓은 맥락에서 유효할지는 아직 미지수입니다. 하지만 한 가지 분명한 사실은 리소스의 제약 조건 하에서 문제의 본질을 깊이 고민하고 아키텍처를 영리하게 설계하며 모든 구성 요소를 꼼꼼하게 최적화하면 여전히 경쟁력 높은 시스템을 구축할 수 있다는 것입니다. 이는 아마도 리소스 스택이 아닌 엔지니어링 최적화의 승리라는 중국 AI 개발의 축소판이라고 할 수 있습니다.
다음에 인공지능이 이전 대화를 '잊어버린' 경우, 미래의 인공지능이 이렇게 대답할 수도 있습니다: "잊어버린 게 아니라 대화를 사진으로 찍어 내 기억 속에 저장했을 뿐입니다. 필요하면 언제든지 불러올 수 있습니다."라고 대답할 수 있을 것입니다
그 순간, 인공지능과 인류의 대화는 훨씬 더 자연스럽고 지속될 수 있을 것입니다.
머큐리 기술 솔루션. 디지털 가속화