Claude Opus 4.7 ist da: Das neueste Modell von Anthropic liefert, aber es ist eine Token-fressende Maschine

Kurz gesagt

Anthropic hat gerade sein bisher leistungsfähigstes Opus-Modell veröffentlicht, Claude Opus 4.7.

Das Modell liefert starke Benchmark-Zuwächse bei Codierung und Argumentation, ist jedoch nicht das umstrittene Mythos-Modell, das Anthropic ausgewählten Partnern anbietet.

Claude Opus 4.7 zeigt eine sichtbare Gedankenkette und eine ungewöhnlich hohe Token-Nutzung.

Anthropic hat heute Claude Opus 4.7 ausgeliefert und nennt es das bisher leistungsfähigste Opus-Modell des Unternehmens. Wir haben es getestet und das Marketing stimmt mit den Ergebnissen überein.

„Unser neuestes Modell, Claude Opus 4.7, ist jetzt allgemein verfügbar.“ sagte das Unternehmen in seiner offiziellen Ankündigung. „Benutzer berichten, dass sie ihre schwierigsten Codierungsarbeiten – die zuvor einer strengen Aufsicht bedurften – mit Zuversicht an Opus 4.7 übergeben können.“

Das Modell kommt im Anschluss an wochenlange Benutzerbeschwerden darüber, dass Opus 4.6 angeblich an Leistung verloren hat. Entwickler auf GitHub, Reddit und Wie wir gestern berichteten, bereitete Anthropic bereits 4.7 vor, während es an etwas weitaus Mächtigerem arbeitete, das es nicht öffentlich veröffentlichen kann: Claude Mythos.

Als die Ankündigung heute Morgen veröffentlicht wurde, antworteten X-Benutzer, die sich am lautesten über die Verschlechterung von 4.6 geäußert hatten, schnell mit Sarkasmus: Opus 4.7, scherzten einige, fühlte sich an wie „frühes Opus 4.6“ – die Version, die den Leuten tatsächlich gefiel, bevor sie glaubten, dass Anthropic stillschweigend die Regler herunterdrehte. Anthropic hat natürlich bestritten, die Modellgewichte jemals herabzusetzen, um den Rechenbedarf zu verwalten.

Willkommen zurück Opus 4.6 pic.twitter.com/hpwNkrq1tD

– Dev Ed (@developedbyed) 16. April 2026

Benchmarks untermauern die Behauptungen von Anthropic. Im SWE-Bench Multilingual, einem Benchmark zur Messung von Programmierkenntnissen, erreichte Opus 4.7 80,5 % gegenüber 77,8 % für 4.6.

Bei GDPVal-AA, einer unabhängigen Bewertung wirtschaftlich wertvoller Wissensarbeit in den Bereichen Finanzen und Recht, erzielte 4.7 1.753 Elo gegenüber 1.674 von GPT-5.4 – ein klarer Vorsprung gegenüber dem nächsten Konkurrenten.

Die Dokumentenbegründung über OfficeQA Pro zeigte den stärksten Anstieg: 80,6 % für 4,7 gegenüber 57,1 % für 4,6, wobei GPT-5.4 und Gemini 3.1 Pro mit 51,1 % bzw. 42,9 % zurückblieben. Die Langzeitkohärenz bei Vending-Bench 2, einem Benchmark, der misst, wie gut Modelle bei langen Kontext- und Argumentationsaufgaben wie dem Besitz eines Verkaufsgeschäfts sind, ergab einen Geldsaldo von 10.937 US-Dollar gegenüber 8.018 US-Dollar für 4,6 – ein Indikator dafür, wie gut das Modell nützliches Verhalten über lange autonome Läufe hinweg aufrechterhält.

Cybersicherheit ist der einzige Bereich, in dem sich Anthropic bewusst zurückgehalten hat. Opus 4.7 wird mit automatisierten Schutzmaßnahmen gestartet, die verbotene oder risikoreiche Cybersicherheitsanfragen erkennen und blockieren. Anthropic bestätigte, dass es während des Trainings „mit Versuchen experimentiert hat, die Cyber-Fähigkeiten von 4.7 differenziell zu reduzieren“.

Sicherheitsexperten können sich für den Zugriff auf diese Funktionen bei einem neuen Cyber-Verifizierungsprogramm bewerben. Dies ist der Testlauf des Unternehmens für die Sicherheitsmaßnahmen, die es letztendlich mit Modellen der Mythos-Klasse in großem Maßstab implementieren muss.

Opus 4.7 ist das leistungsstärkste öffentlich verfügbare Modell. Mythos Preview, das wahre Grenzmodell von Anthropic, ist weiterhin auf geprüfte Sicherheitsfirmen beschränkt. Wie das britische AI Security Institute letzte Woche bewertete, war Mythos die erste KI, die „The Last Ones“ abgeschlossen hat, eine 32-stufige Simulation eines Unternehmensnetzwerkangriffs, für die menschliche rote Teams normalerweise 20 Stunden benötigen.

Opus 4.7 ist das nicht. Aber es ist das öffentlich zugängliche Modell, das Anthropic nutzen wird, um herauszufinden, wie sich diese Sicherheitsleitplanken in freier Wildbahn halten, bevor es wagt, etwas Unheimlicheres zu veröffentlichen.

Auf der Token-Seite verwendet Opus 4.7 einen aktualisierten Tokenizer, der die gleiche Eingabe je nach Inhaltstyp etwa 1,0x–1,35x mehr Tokens zuordnen kann. Das Modell argumentiert auch stärker bei höheren Aufwandsstufen, insbesondere bei späteren Runden in Agenten-Workflows. Anthropic hat einen Migrationsleitfaden für Entwickler veröffentlicht, die ein Upgrade von 4.6 planen.

Wir haben unseren eigenen Test durchgeführt – den gleichen Game-Building-Prompt, den wir zur Bewertung jeder größeren Modellveröffentlichung verwendet haben. Opus 4.7 lieferte das beste Ergebnis, das wir je mit einem Modell erzielt haben. Das optisch ausgefeilteste Spiel, die wirklich herausforderndste Schwierigkeitskurve, die beste Mechanik und die kreativsten Gewinn- und Verlustbildschirme. Es schien, als würde es Levels prozedural generieren, und keines davon fühlte sich unmöglich an – ein Gleichgewicht, das andere Modelle wiederholt zum Stolpern gebracht hat.

Hier können Sie das Spiel testen

Emerge: Das Spiel, erstellt von Claude Opus 4.7

Es war kein Nullschuss. Opus 4.6 hatte denselben Test ohne Korrekturen bestanden. Opus 4.7 benötigte eine Runde Fehlerbehebungen. Das könnte Pech sein – eine einzelne Iteration ist eine dünne Stichprobe –, aber es ist erwähnenswert. Was uns mehr beeindruckte, war die Art und Weise, wie das Modell diese Runde bewältigte: Es entdeckte selbständig weitere Fehler, ohne auf sie hingewiesen zu werden. Opus 4.6 wartete normalerweise darauf, dass man ihm sagte, wo man suchen sollte.

Xiaomi MiMo v2 Pro war bisher das Modell mit den besten Ergebnissen, aber im Gegensatz zu Opus lieferte es ein funktionierendes Ergebnis, ohne dass mehr als eine Iteration erforderlich war. Manche mögen argumentieren, dass es optisch ansprechender war und einen Soundtrack hatte, was ein Vorteil war, aber die Logik und Physik des Spiels