TL;DR: Las leyes de escalado de la IA están alcanzando rendimientos decrecientes, marcando el comienzo de una era en la que la innovación arquitectónica, y no solo el cálculo de fuerza bruta, definirá el progreso. El reciente DeepSeek-OCR de DeepSeek, con su "compresión visual" del contexto, representa un cambio revolucionario. Al convertir largas conversaciones textuales en fragmentos de memoria "fotográficos", DeepSeek aborda el problema crítico del contexto largo de la IA, permitiendo conversaciones teóricamente infinitas y optimizando el cálculo. Esta innovación pone de relieve una divergencia fundamental en la estrategia mundial de IA: mientras que la tecnología occidental suele "apilar recursos", las empresas chinas destacan en la "optimización de la ingeniería", una diferencia que podría remodelar el panorama competitivo y democratizar las capacidades avanzadas de IA.
Soy James, CEO de Mercury Technology Solutions.
La trayectoria del desarrollo de la IA, especialmente entre Oriente y Occidente, sigue revelando dos enfoques fundamentalmente diferentes del progreso tecnológico. Aunque gran parte de la conversación reciente ha girado en torno a la percepción de la meseta de las leyes de escalado de la IA -especialmente después de que la GPT-5 no diera el mismo "salto mágico" que sus predecesoras-, los verdaderos avances se están produciendo ahora en la intrincada danza de la optimización.
Ayer, DeepSeek dio a conocer DeepSeek-OCR, y creo que esta innovación abre una nueva frontera crucial para la optimización de la IA. Es un testimonio de pensar de forma diferente sobre la propia naturaleza de la memoria de IA.
El elefante en la habitación: La amnesia contextual de la IA
Cualquiera que haya pasado un tiempo considerable conversando con un LLM lo ha experimentado: cuanto más larga es la conversación, más "tonta" se vuelve la IA. Las respuestas van a la deriva, la coherencia se desvanece y, finalmente, la IA olvida por completo los detalles anteriores. Nuestra reacción instintiva suele ser simplemente reiniciar una nueva conversación, lo que, para nuestro alivio, restaura inmediatamente la "frescura" y calidad de la IA.
No se trata de un error, sino de un reto fundamental: La IA tiene problemas con los contextos excesivamente largos. Imagina que intentas recordar meticulosamente cada palabra de un libro entero y, al mismo tiempo, procesar información nueva. Tu cerebro se "colapsaría" rápidamente Los LLM se enfrentan a una avalancha computacional similar cuando procesan ventanas de contexto largas; el cómputo necesario crece exponencialmente, provocando sobrecargas de memoria y tiempos de respuesta inaceptablemente lentos. Aunque teóricamente es posible, en la práctica la latencia hace que un sistema de este tipo sea inutilizable.
El equipo de DeepSeek, sin embargo, propuso una solución radical: "fotografiar" conversaciones antiguas.
Compresión visual: Una aproximación humana a la memoria de la IA
Al principio, la idea suena contraintuitiva. ¿Convertir texto en imágenes y luego pedir a una IA que "lea" esas imágenes para reconstruir la conversación? ¿No supondría una pérdida masiva de información y un aumento de las necesidades de almacenamiento?
Los resultados de DeepSeek son, francamente, asombrosos. Descubrieron que una página de 1.000 palabras podía reconstruirse con más del 97% de precisión utilizando sólo unos 100 "tokens visuales" Es como comprimir una conversación de 100.000 palabras en 10.000 "fragmentos fotográficos", lo que permite a la IA recordar lo esencial de la discusión con solo mirar esos fragmentos. Incluso aumentando el ratio de compresión a 20 veces (50 fragmentos visuales por cada 1.000 palabras) se mantiene una precisión aproximada del 60%. Piensa en recordar detalles de una conversación de hace un mes: un 60% de retención es impresionante para un ser humano, por no hablar de una IA.
(Una advertencia crucial: estas pruebas se realizaron principalmente en escenarios de OCR: reconstrucción de texto a partir de imágenes. La eficacia en diálogos complejos de varios turnos, discusiones sobre códigos o razonamientos intrincados aún requiere una validación completa, ya que el propio artículo reconoce que se trata de resultados preliminares)
Sin embargo, desde el punto de vista de la ingeniería, el rendimiento es notable. Una sola GPU A100 puede procesar 200.000 páginas al día, cifra que se eleva a 33 millones de páginas con 20 nodos. Para los casos de uso que implican el procesamiento masivo de documentos, como la preparación de grandes modelos para la formación o la creación de bases de conocimiento empresariales, este aumento de la eficiencia es transformador.
DeepSeek incluso ha abierto el código y los pesos del modelo, lo que reduce la barrera de entrada. Aunque el modelo no está ajustado para un uso conversacional y requiere formatos específicos, la optimización subyacente es innegable.
Arquitectura inteligente: Compresión adaptativa y la hipótesis del "olvido humano
DeepSeek-OCR no es una solución rígida y universal. Su arquitectura es flexible y ofrece múltiples modos, como los distintos ajustes de disparo de una cámara. Una diapositiva sencilla puede necesitar sólo 64 fichas visuales con una resolución de 512x512 (modo "Tiny"), mientras que una maqueta de periódico compleja puede manejarse con unas 800 fichas utilizando un modo "Gundam" multivista.
Esta flexibilidad es clave. Es similar a la forma en que los seres humanos procesan la información: las notas sencillas se almacenan de forma diferente a los complejos documentos académicos. DeepSeek-OCR ajusta de forma inteligente la compresión en función de la complejidad del contenido, conservando recursos cuando es posible y aplicando más potencia cuando es necesario. El principio subyacente es profundo: el límite de compresión depende de la complejidad, reflejando el funcionamiento de la memoria humana.
Esto nos lleva al concepto más perspicaz del documento: "Dejar que la IA olvide como un humano"
Piense en su propia memoria. Puede repetir textualmente una frase reciente. Lo esencial de una conversación de una hora está claro. Los acontecimientos de ayer son fragmentos clave. La discusión de la semana pasada es confusa. La del mes pasado está casi olvidada.
DeepSeek propone un mecanismo similar para la IA: las interacciones recientes se guardan como texto sin procesar. El contenido de hace una hora se convierte en una "foto" de alta resolución (800 tokens). El diálogo de esta mañana se degrada a definición estándar (256 tokens). El de ayer se convierte en baja resolución (100 tokens), y los recuerdos más antiguos se comprimen en gran medida o se descartan.
Este diseño se asemeja a la naturaleza desvaneciente de la memoria humana, y abre la posibilidad de que la IA maneje conversaciones teóricamente infinitas, ya que los recuerdos más antiguos se "desvanecen" automáticamente para dejar espacio a los nuevos.
Por supuesto, sigue habiendo retos. ¿Cómo determinar qué información es "importante" y merece ser retenida en alta resolución? ¿Qué ocurre si un usuario, a los 50 turnos de una conversación, de repente hace referencia a un detalle del turno 5 que se ha comprimido mucho? Esto podría requerir una "puntuación de la importancia de la memoria" o etiquetas de importancia asignadas por el usuario.
La división global de la IA: Optimización de la ingeniería frente a apilamiento de recursos
Esta investigación ilustra vívidamente una característica definitoria de las empresas chinas de IA: un enfoque extremo en la optimización de costes y la eficiencia de la ingeniería.
El anterior modelo V3 de DeepSeek alcanzó un rendimiento de nivel GPT-4 con una fracción del cálculo (2,788 millones de horas de GPU H800, coste de formación estimado en 5,57 millones de dólares), asombrando al sector. Este modelo de OCR continúa esa tendencia, buscando implacablemente conseguir los mejores resultados con el menor número de tokens.
En contraste con el enfoque de "apilar recursos hasta que funcione" que suele verse en algunos desarrollos occidentales de IA, los equipos chinos destacan en la optimización profunda con limitaciones de recursos. Esto podría ser el resultado directo de las restricciones a la exportación de GPU, que fomentan la innovación forzada, combinadas con una fuerte cultura de ingeniería de la eficiencia. Mientras que OpenAI puede gastar grandes sumas en el entrenamiento de modelos de gran tamaño, DeepSeek debe encontrar la forma de lograr resultados comparables con menos recursos.
Esta divergencia está remodelando activamente el panorama competitivo mundial de la IA. Mientras algunas empresas occidentales siguen compitiendo por quién tiene el modelo más grande o los costes de formación más elevados, las empresas chinas están explorando cómo conseguir el 90% del efecto con el 10% del coste. A largo plazo, esta capacidad de optimización de la ingeniería podría resultar una ventaja competitiva más formidable que el mero despliegue de recursos, especialmente para aplicaciones comerciales a gran escala en las que el control de costes es primordial.
Mirando al futuro: La promesa de R2 y más allá
Si DeepSeek integra este tipo de técnicas innovadoras en su modelo de inferencia de próxima generación, R2, podría dar lugar a cambios sustanciales. R1 ya demostró la capacidad de los equipos chinos para alcanzar una paridad casi occidental en la inferencia, pero su gestión de contextos largos seguía estando limitada por las arquitecturas tradicionales. Si R2 integra la compresión visual, la optimización del ME y otras técnicas aún no anunciadas, podría reducir drásticamente el coste computacional de los contextos largos, manteniendo al mismo tiempo un razonamiento potente.
No se trata sólo de un aumento del rendimiento, sino de una ampliación de los casos de uso. Imagine una IA que recuerde docenas de turnos de conversación, procese documentos extremadamente largos y mantenga un coste de inferencia aceptable. Esto sería transformador para aplicaciones que requieren una interacción prolongada, como la educación, la consulta médica o el análisis jurídico. Y si el coste es lo suficientemente bajo, estas capacidades podrían pasar de ser "exclusivas de grandes corporaciones" a ser "accesibles a pequeños y medianos desarrolladores"
La hoja de ruta tecnológica de DeepSeek apunta sistemáticamente hacia soluciones "más eficaces y prácticas", en lugar de limitarse a perseguir cifras de referencia. V3, OCR y probablemente R2 siguen este camino. Aunque se basan en información actual y especulaciones, la dirección es clara y está respaldada técnicamente.
La memoria humana no funciona como un ordenador tradicional, que registra todos los detalles. Recordamos impresiones, información clave y conexiones emocionales, no transcripciones literales. Olvidamos los detalles, pero retenemos lo importante. Recodificamos los recuerdos, almacenándolos de forma más eficiente. DeepSeek-OCR ofrece una vía viable para que la IA imite esto: al manejar contextos largos, una representación visual podría ser mucho más eficiente que el texto puro.
Queda por ver si esta idea es válida en contextos más amplios. Pero es innegable que demuestra una cosa: con recursos limitados, si se contempla en profundidad la naturaleza del problema, se diseña inteligentemente la arquitectura y se optimiza meticulosamente cada componente, aún es posible construir sistemas altamente competitivos. Quizá esto sea un microcosmos del desarrollo de la IA en China: una victoria no del apilamiento de recursos, sino de la optimización de la ingeniería.
La próxima vez que descubras que tu IA "olvida" vuestra conversación anterior, quizá una IA futura responda: "No lo he olvidado; simplemente he fotografiado nuestra conversación y la he guardado en lo más profundo de mi memoria. Si la necesitas, siempre puedo recuperarla por ti"
En ese momento, el diálogo entre la IA y la humanidad podría ser mucho más natural y duradero.
Soluciones tecnológicas Mercury. Acelerar la digitalidad.