Claude Opus 4.7 est là : le dernier modèle d'Anthropic est à la hauteur, mais c'est une machine à manger des jetons

En bref

Anthropic vient de sortir son modèle Opus le plus performant à ce jour, Claude Opus 4.7.

Le modèle offre de solides gains de référence en matière de codage et de raisonnement, mais il ne s'agit pas du modèle controversé Mythos qu'Anthropic propose à certains partenaires.

Claude Opus 4.7 montre une chaîne de pensée visible et une utilisation inhabituellement élevée des jetons.

Anthropic a expédié Claude Opus 4.7 aujourd'hui, le qualifiant de modèle Opus le plus performant de l'entreprise à ce jour. Nous l’avons testé et le marketing s’aligne sur les résultats.

"Notre dernier modèle, Claude Opus 4.7, est désormais disponible pour tous." » a déclaré la société dans son annonce officielle. "Les utilisateurs déclarent être en mesure de confier en toute confiance leur travail de codage le plus difficile, celui qui nécessitait auparavant une supervision étroite, à l'Opus 4.7."

Le modèle arrive après des semaines de plaintes d'utilisateurs concernant l'Opus 4.6 qui aurait perdu son avantage. Les développeurs de GitHub, Reddit et X ont documenté ce qu'ils appellent la « contraction de l'IA » : le sentiment que le modèle pour lequel ils avaient payé s'était progressivement aggravé. Comme nous l'avons signalé hier, Anthropic préparait déjà la 4.7 tout en étant assis sur quelque chose de bien plus puissant qu'il ne peut pas rendre public : Claude Mythos.

Lorsque l'annonce a été publiée ce matin, les utilisateurs de X qui avaient été les plus bruyants à propos de la dégradation de la version 4.6 n'ont pas tardé à répondre avec sarcasme : l'Opus 4.7, ont plaisanté certains, ressemblait au "premier Opus 4.6" - la version que les gens aimaient réellement, avant de croire qu'Anthropic baissait doucement les boutons. Anthropic, bien entendu, a nié la pondération toujours dégradante des modèles pour gérer la demande de calcul.

Bon retour opus 4.6 pic.twitter.com/hpwNkrq1tD

– Dev Ed (@developedbyed) 16 avril 2026

Les benchmarks confirment les affirmations d'Anthropic. Sur SWE-bench Multilingual, un benchmark qui mesure les compétences en codage, Opus 4.7 a obtenu un score de 80,5 % contre 77,8 % pour 4.6.

Sur GDPVal-AA, une évaluation tierce du travail de connaissances économiquement précieux dans les domaines financier et juridique, 4,7 a obtenu 1 753 Elo contre 1 674 pour GPT-5.4, soit une nette marge sur son concurrent le plus proche.

Le raisonnement des documents via OfficeQA Pro a montré la hausse la plus marquée : 80,6 % pour 4,7 contre 57,1 % pour 4,6, avec GPT-5.4 et Gemini 3.1 Pro à 51,1 % et 42,9 % respectivement. La cohérence à long terme sur Vending-Bench 2, une référence qui mesure la qualité des modèles dans un contexte à long terme et dans des tâches de raisonnement telles que la possession d'une entreprise de distribution automatique, a atteint un solde monétaire de 10 937 $ contre 8 018 $ pour 4,6, un indicateur de la façon dont le modèle maintient un comportement utile sur de longues courses autonomes.

La cybersécurité est le seul domaine dans lequel Anthropic s'est délibérément retenu. Opus 4.7 est lancé avec des protections automatisées qui détectent et bloquent les demandes de cybersécurité interdites ou à haut risque. Anthropic a confirmé avoir "expérimenté des efforts pour réduire différentiellement" les cybercapacités de 4.7 pendant l'entraînement.

Les professionnels de la sécurité peuvent postuler à un nouveau programme de cybervérification pour accéder à ces fonctionnalités. Il s'agit du test de l'entreprise pour les protections qu'elle devra éventuellement déployer à grande échelle avec les modèles de classe Mythos.

Opus 4.7 est le modèle le plus puissant disponible au public. Mythos Preview, le véritable modèle frontière d'Anthropic, reste réservé aux entreprises de sécurité agréées. Comme l'a évalué la semaine dernière l'AI Security Institute du Royaume-Uni, Mythos a été la première IA à réaliser « The Last Ones », une simulation d'attaque de réseau d'entreprise en 32 étapes qui prend généralement 20 heures aux équipes rouges humaines.

L'opus 4.7 n'est pas ça. Mais c'est le modèle destiné au public qu'Anthropic utilisera pour apprendre comment ces garde-corps de sécurité résistent dans la nature avant d'oser publier quelque chose de plus effrayant.

Du côté des jetons, Opus 4.7 utilise un tokeniseur mis à jour qui peut mapper la même entrée sur environ 1,0 à 1,35 fois plus de jetons en fonction du type de contenu. Le modèle raisonne également davantage à des niveaux d’effort plus élevés, en particulier lors des tours ultérieurs des flux de travail agent. Anthropic a publié un guide de migration pour les développeurs prévoyant de passer de la version 4.6.

Nous avons effectué notre propre test, la même invite de création de jeu que celle que nous avons utilisée pour évaluer chaque version majeure du modèle. L'Opus 4.7 a produit le meilleur résultat que nous ayons jamais obtenu sur n'importe quel modèle. Le jeu le plus visuellement raffiné, la courbe de difficulté la plus véritablement stimulante, les meilleurs mécanismes et les écrans de victoire et de perte les plus créatifs. Il semblait générer des niveaux de manière procédurale, et aucun d’entre eux ne semblait impossible – un équilibre qui a fait trébucher d’autres modèles à plusieurs reprises.

Vous pouvez tester le jeu ici

Emerge : Le Jeu, créé par Claude Opus 4.7

Ce n'était pas un tir nul. L'Opus 4.6 avait réussi ce même test sans aucun correctif. L'Opus 4.7 avait besoin d'une série de corrections de bugs. Cela pourrait porter malheur – une seule itération est un échantillon mince – mais cela mérite d'être noté. Ce qui nous a le plus frappé, c'est la façon dont le modèle a géré ce cycle : il a repéré des bugs supplémentaires tout seul, sans être guidé vers eux. L'Opus 4.6 attendait généralement qu'on lui dise où chercher.

Xiaomi MiMo v2 Pro était le modèle avec les meilleurs résultats jusqu'à présent, mais contrairement à Opus, il a produit un résultat fonctionnel sans avoir besoin de plus d'une itération. Certains diront peut-être qu'il était plus agréable visuellement et qu'il avait une bande-son, ce qui était un avantage, mais la logique et la physique du jeu