Reflexiones sobre DeepSeek

TL;DR: DeepSeek, un modelo de IA de código abierto, supone una amenaza mínima para los gigantes tecnológicos, pero una perturbación significativa para las personas y los trabajadores del conocimiento. Es un ejemplo del poder de la innovación tecnológica democratizada, que desafía los modelos de negocio de IA existentes y acelera el cambio hacia aplicaciones de IA más pequeñas y específicas de un dominio. Sin embargo, esta democratización también plantea riesgos como el desplazamiento de puestos de trabajo y un posible uso indebido.

Introducción

En el cambiante panorama de la inteligencia artificial, DeepSeek emerge como un actor notable, no por amenazar a las grandes empresas tecnológicas, sino por remodelar el panorama tecnológico para particulares y trabajadores del conocimiento. Según Yann LeCun, científico jefe de IA de Meta, DeepSeek es "una victoria para la comunidad de código abierto" Este avance pone de relieve las capacidades y desafíos únicos que presentan los modelos de IA de código abierto en el mundo actual.

La inevitable aparición de DeepSeek

¿Por qué centrarse en la declaración de Yann LeCun? Pone de relieve la previsión estratégica que encierra el enfoque de código abierto de Meta. LLaMA, un modelo fundacional, allanó el camino para DeepSeek e inspiró otros modelos especializados como Qwen de Alibaba Cloud y Breeze de MediaTek. La estrategia de Meta aprovecha la innovación global para perfeccionar y mejorar sus modelos de IA a través de los comentarios de la comunidad.

Para Meta, los avances tecnológicos aportados por modelos como DeepSeek estaban previstos; la incertidumbre residía en qué equipo los lograría primero. Hoy es DeepSeek; mañana, otra entidad podría tomar la delantera.

La serendipia del éxito de DeepSeek

Sorprendentemente, DeepSeek se centró inicialmente en la minería de criptomonedas y el comercio cuantitativo. Al parecer, su modelo V3 comenzó como un proyecto paralelo, una afirmación que, aunque cuestionada por algunos, me resuena. Las empresas que perfeccionan los modelos LLaMA a menudo exploran la IA como una nueva frontera, experimentando con métodos dentro de este marco de código abierto.

Los primeros equipos de minería acumularon una vasta experiencia técnica en la optimización del cálculo en clústeres de GPU. Los informes indican que incluso empleaban PTX, un lenguaje más granular que CUDA, para maximizar el rendimiento. No es de extrañar que sus logros sean impresionantes.

Pero, ¿por qué una empresa de comercio cuantitativo se aventuraría en el modelado de IA? La motivación podría residir en el potencial de la IA para analizar los mercados mundiales e identificar oportunidades lucrativas, una perspectiva atractiva para las organizaciones con recursos.

El impacto de DeepSeek

DeepSeek altera significativamente las estructuras de precios, desafiando a las empresas de IA que dependen de grandes API de modelos para obtener ingresos. Si resulta eficaz, este enfoque permitirá a las grandes empresas desarrollar modelos más pequeños y especializados para áreas como la atención al cliente, el asesoramiento jurídico o las consultas médicas, reduciendo así los costes de las API sin depender de modelos amplios y generalizados.

No hace mucho, OpenAI introdujo el ajuste de refuerzo durante su evento "12 días de Navidad", permitiendo a los usuarios ajustar modelos con ejemplos mínimos. Anticipé que 2025 sería el año del ajuste fino rentable y específico para cada dominio. Sin embargo, DeepSeek ha acelerado esta trayectoria, reduciendo las barreras para el entrenamiento de modelos.

Esto plantea una cuestión importante: ¿Es mejor crear un modelo desde cero o perfeccionar uno ya existente?

Las buenas noticias terminan aquí; éstas son las malas..

Los experimentos de DeepSeek revelan numerosos métodos para aumentar el rendimiento de los modelos y reducir los costes de formación más allá de las leyes de escalado tradicionales. Aunque algunos temen que esto pueda socavar las ventajas de las grandes empresas de IA, yo lo veo beneficioso. Las empresas con importantes recursos informáticos pueden replicar los modelos de DeepSeek en cuestión de días, lo que permite a los equipos pequeños introducirse en nuevos dominios. Incluso las empresas medianas pueden aprovechar o alquilar la potencia de cálculo necesaria para crear modelos avanzados de IA, como ya han demostrado algunos equipos de estudiantes.

¿Por qué es una mala noticia?

A medida que caigan las barreras a la formación y el despliegue, más entidades desarrollarán modelos de nicho, potencialmente "craqueando" la experiencia profesional con IA. Las empresas sentirán una mayor presión para adoptar la IA internamente, una mejora necesaria para todos. Los primeros en adoptarla obtendrán una ventaja competitiva.

En resumen, la IA empezará a sustituir ciertos puestos de trabajo.

Más allá del desplazamiento laboral, hay un aspecto más oscuro: Las capacidades de alineación de DeepSeek R1 son débiles. Con ciertos conocimientos, es bastante fácil saltarse sus restricciones, lo que lo convierte en una herramienta para usos potencialmente maliciosos, como el fraude sofisticado o la generación de contenidos dañinos. DeepSeek es similar a un incendio incontrolable: tiene potencial para la innovación, pero también para causar daños generalizados.

Conclusión

A pesar de los retos, DeepSeek acerca a la humanidad a la AGI (Inteligencia Artificial General). Si la AGI es inevitable, debemos afrontar sus retos cuanto antes. Aunque la tecnología democratizada estimula la innovación, también puede profundizar las divisiones sociales. A medida que avancemos hacia la AGI, la mitigación de los efectos adversos de la IA pasará de ser una precaución académica a una responsabilidad compartida.

Vivimos en una era dorada de descubrimiento y creación. Como testigos y participantes, espero con impaciencia que se produzcan más avances revolucionarios y que sepamos navegar sabiamente por este camino transformador.

Por último, creo que el Proyecto Digits de Nvidia, a la vista de nuestro debate, se convertirá en un estándar en todas las empresas: una herramienta versátil para diversas tareas.

Reflexiones sobre DeepSeek
James Huang 4 de febrero de 2025
Compartir esta publicación
Cadena de pensamiento: El enfoque único de DeepSeek para los modelos de razonamiento