Se presenta una revolucionaria actualización de IA: la última versión de DeepSeek reduce las tarifas premium a una fracción del precio de GPT 5.5

En breve

DeepSeek lanzó su nuevo modelo V4-Pro con 1,6 billones de parámetros.

Cuesta $1,74/$3,48 por millón de tokens de entrada/salida, aproximadamente una vigésima parte del precio de Claude Opus 4.7 y un 98% menos que GPT 5.5 Pro.

DeepSeek entrenó V4 en parte con chips Huawei Ascend, eludiendo las restricciones de exportación de EE. UU., y dice que una vez que 950 nuevos supernodos entren en línea a finales de 2026, el precio ya bajo del modelo Pro caerá aún más.

DeepSeek está de regreso y apareció unas horas después de que OpenAI abandonara GPT-5.5. ¿Coincidencia? Tal vez. Pero si eres un laboratorio chino de inteligencia artificial que el gobierno estadounidense ha estado tratando de frenar con prohibiciones de exportación de chips durante los últimos tres años, tu sentido del momento se vuelve bastante agudo.

El laboratorio con sede en Hangzhou lanzó hoy versiones preliminares de DeepSeek-V4-Pro y DeepSeek-V4-Flash, ambas de peso abierto, ambas con un millón de ventanas de contexto de token. Eso significa que básicamente puedes trabajar con un contexto aproximadamente del tamaño de la Trilogía de El Señor de los Anillos antes de que el modelo colapse. Ambos también tienen un precio muy por debajo de cualquier comparable en Occidente, y ambos son gratuitos para aquellos capaces de ejecutarse localmente.

La última gran disrupción de DeepSeek (R1 en enero de 2025) borró 600 mil millones de dólares de la capitalización de mercado de Nvidia en un solo día, mientras los inversores cuestionaban si las empresas estadounidenses realmente necesitaban inversiones tan grandes para producir resultados que un pequeño laboratorio chino logró con una fracción del costo. V4 es un tipo diferente de movimiento: más silencioso, más técnico y más centrado en la eficiencia para cualquiera que realmente construya con IA.

Dos modelos, trabajos muy diferentes

De los dos nuevos modelos, el V4-Pro de DeepSeek es el más grande, con 1,6 billones de parámetros totales. Para poner esto en perspectiva, los parámetros son las "configuraciones" internas o "células cerebrales" que un modelo utiliza para almacenar conocimiento y reconocer patrones: cuantos más parámetros tenga un modelo, más información compleja puede contener teóricamente. Eso lo convierte en el modelo de código abierto más grande en el mercado de LLM hasta la fecha. El tamaño puede parecer ridículo hasta que descubres que sólo activa 49 mil millones de ellos por pase de inferencia.

Este es el truco de la mezcla de expertos que DeepSeek ha perfeccionado desde la V3: el modelo completo permanece allí, pero solo la porción relevante se activa para cualquier solicitud determinada. Más conocimiento, misma factura informática.

"DeepSeek-V4-Pro-Max, el modo de máximo esfuerzo de razonamiento de DeepSeek-V4-Pro, avanza significativamente las capacidades de conocimiento de los modelos de código abierto, estableciéndose firmemente como el mejor modelo de código abierto disponible en la actualidad", escribió Deepseek en la tarjeta oficial del modelo en Huggingface. "Logra un rendimiento de primer nivel en pruebas comparativas de codificación y cierra significativamente la brecha con los principales modelos de código cerrado en tareas de razonamiento y agentes".

V4-Flash es el práctico: 284 mil millones de parámetros totales, 13 mil millones activos. Está diseñado para ser más rápido, más económico y, según los propios puntos de referencia de DeepSeek, "logra un rendimiento de razonamiento comparable al de la versión Pro cuando se le asigna un presupuesto de pensamiento mayor".

Ambos admiten un millón de tokens de contexto. Eso son aproximadamente 750.000 palabras: aproximadamente toda la trilogía de “El Señor de los Anillos” más cambios. Y eso es una característica estándar, no un nivel premium.

La (no tan) salsa secreta de Deepseek: hacer que la atención no sea terrible a escala

Aquí está la parte técnica para nerds o aquellos interesados en la magia que impulsa el modelo. Deepseek no oculta sus secretos y todo está disponible de forma gratuita; el documento completo está disponible en Github.

La atención estándar de la IA (el mecanismo que permite a un modelo comprender las relaciones entre palabras) tiene un problema de escala brutal. Cada vez que se duplica la longitud del contexto, el costo de cálculo aproximadamente se cuadriplica. Entonces, ejecutar un modelo con un millón de tokens no es solo el doble de caro que 500.000 tokens. Cuesta cuatro veces más. Esta es la razón por la que durante mucho tiempo el contexto ha sido históricamente una casilla de verificación que los laboratorios agregan y luego aceleran silenciosamente detrás de los límites de tasas.

DeepSeek inventó dos nuevos tipos de atención para solucionar este problema. El primero, Compressed Sparse Attention, funciona en dos pasos. Primero comprime grupos de tokens (digamos, cada 4 tokens) en una sola entrada. Luego, en lugar de atender a todas esas entradas comprimidas, utiliza un "Indexador Lightning" para seleccionar sólo los resultados más relevantes para una consulta determinada. Su modelo pasa de atender a un millón de fichas a atender a un conjunto mucho más pequeño de las partes más importantes, algo así como un bibliotecario que no lee todos los libros pero sabe exactamente qué estante revisar.

La segunda, Atención muy comprimida, es más agresiva. Colapsa cada 128 tokens en una sola entrada: no hay una selección escasa, solo una compresión brutal. Se pierden detalles finos, pero se obtiene una visión global extremadamente barata. Los dos tipos de atención se ejecutan en capas alternas, por lo que el modelo obtiene tanto el detalle como la descripción general.

El resultado, según el documento técnico: con un millón de tokens, V4-Pro utiliza el 27% de la computación que necesitaba su predecesor (V3.2). La caché KV (la memoria que el modelo necesita para rastrear el contexto) se reduce a solo el 10 % de V3.2. V4-Flash va más allá: 10% de cómputo, 7% de memoria