Mise à niveau révolutionnaire de l'IA dévoilée : la dernière version de DeepSeek réduit les frais de prime à une fraction du prix de GPT 5.5

En bref

DeepSeek a publié son nouveau modèle V4-Pro avec 1,6 billion de paramètres.

Il coûte 1,74 $/3,48 $ par million de jetons d'entrée/sortie, soit environ 1/20e du prix de Claude Opus 4.7 et 98 % de moins que GPT 5.5 Pro.

DeepSeek a formé le V4 en partie sur les puces Huawei Ascend, contournant les restrictions américaines à l'exportation, et affirme qu'une fois que 950 nouveaux supernodes seront mis en ligne plus tard en 2026, le prix déjà bas du modèle Pro baissera encore.

DeepSeek est de retour et est apparu quelques heures après qu'OpenAI ait abandonné GPT-5.5. Coïncidence? Peut être. Mais si vous êtes un laboratoire chinois d’IA que le gouvernement américain tente de ralentir avec des interdictions d’exportation de puces depuis trois ans, votre sens du timing devient assez aigu.

Le laboratoire basé à Hangzhou a publié aujourd'hui des versions préliminaires de DeepSeek-V4-Pro et DeepSeek-V4-Flash, toutes deux ouvertes, toutes deux dotées d'un million de fenêtres contextuelles de jetons. Cela signifie que vous pouvez essentiellement travailler avec un contexte à peu près de la taille de la trilogie du Seigneur des Anneaux avant que le modèle ne s'effondre. Les deux sont également à un prix bien inférieur à tout ce qui est comparable en Occident, et les deux sont gratuits pour ceux qui sont capables de fonctionner localement.

La dernière perturbation majeure de DeepSeek – R1 en janvier 2025 – a effacé 600 milliards de dollars de la capitalisation boursière de Nvidia en une seule journée, alors que les investisseurs se demandaient si les entreprises américaines avaient réellement besoin d'investissements aussi énormes pour produire des résultats qu'un petit laboratoire chinois obtenait avec une fraction du coût. La V4 est un type de démarche différent : plus silencieuse, plus technique et plus axée sur l’efficacité pour quiconque construit réellement avec l’IA.

Deux modèles, des métiers très différents

Parmi les deux nouveaux modèles, le V4-Pro de DeepSeek est le plus important, avec 1,6 billion de paramètres au total. Pour mettre cela en perspective, les paramètres sont les « paramètres » internes ou les « cellules cérébrales » qu'un modèle utilise pour stocker des connaissances et reconnaître des modèles : plus un modèle possède de paramètres, plus il peut théoriquement contenir d'informations complexes. Cela en fait le plus grand modèle open source sur le marché LLM à ce jour. La taille peut sembler ridicule jusqu'à ce que vous appreniez qu'elle n'en active que 49 milliards par passe d'inférence.

Il s'agit de l'astuce du mélange d'experts que DeepSeek a peaufinée depuis la V3 : le modèle complet reste là, mais seule la tranche pertinente se réveille pour une demande donnée. Plus de connaissances, même facture de calcul.

"DeepSeek-V4-Pro-Max, le mode d'effort de raisonnement maximal de DeepSeek-V4-Pro, fait progresser considérablement les capacités de connaissance des modèles open source, s'établissant fermement comme le meilleur modèle open source disponible aujourd'hui", a écrit Deepseek dans la carte officielle du modèle sur Huggingface. "Il atteint des performances de premier plan dans les tests de codage et comble considérablement l'écart avec les principaux modèles fermés sur le raisonnement et les tâches agentiques."

V4-Flash est le plus pratique : 284 milliards de paramètres au total, 13 milliards actifs. Il est conçu pour être plus rapide, moins cher et, selon les propres critères de DeepSeek, « atteint des performances de raisonnement comparables à celles de la version Pro lorsqu'on lui donne un budget de réflexion plus important ».

Les deux prennent en charge un million de jetons de contexte. Cela représente environ 750 000 mots, soit à peu près toute la trilogie du « Seigneur des Anneaux » plus les changements. Et il s’agit d’une fonctionnalité standard et non d’un niveau premium.

La sauce (pas si) secrète de Deepseek : rendre l'attention pas terrible à grande échelle

Voici la partie technique pour les nerds ou ceux intéressés par la magie qui anime le modèle. Deepseek ne cache pas ses secrets et tout est disponible gratuitement : l'article complet est disponible sur Github.

L’attention standard de l’IA – le mécanisme qui permet à un modèle de comprendre les relations entre les mots – présente un problème de mise à l’échelle brutal. Chaque fois que vous doublez la longueur du contexte, le coût de calcul quadruple environ. Ainsi, exécuter un modèle sur un million de jetons ne coûte pas seulement deux fois plus cher que 500 000 jetons. C'est quatre fois plus cher. C'est pourquoi le contexte long a toujours été une case à cocher que les laboratoires ajoutent, puis limitent silencieusement les limites de débit.

DeepSeek a inventé deux nouveaux types d'attention pour contourner ce problème. Le premier, Compressed Sparse Attention, fonctionne en deux étapes. Il compresse d'abord des groupes de jetons, par exemple tous les 4 jetons, en une seule entrée. Ensuite, au lieu de s'occuper de toutes ces entrées compressées, il utilise un « indexeur Lightning » pour sélectionner uniquement les résultats les plus pertinents pour une requête donnée. Votre modèle va de l'attention à un million de jetons à l'attention à un ensemble beaucoup plus petit des morceaux les plus importants, un peu comme un bibliothécaire qui ne lit pas tous les livres mais sait exactement quelle étagère vérifier.

Le second, Heavily Compressed Attention, est plus agressif. Il regroupe tous les 128 jetons en une seule entrée : pas de sélection clairsemée, juste une compression brutale. Vous perdez des détails fins, mais vous obtenez une vue globale extrêmement bon marché. Les deux types d'attention s'exécutent en couches alternées, de sorte que le modèle obtient à la fois les détails et la vue d'ensemble.

Le résultat, tiré du document technique : avec un million de jetons, V4-Pro utilise 27 % du calcul nécessaire à son prédécesseur (V3.2). Le cache KV (la mémoire dont le modèle a besoin pour suivre le contexte) tombe à seulement 10 % de la V3.2. V4-Flash va plus loin : 10 % de calcul, 7 % de mémoire