Cryptonews

Revolutionäres KI-Upgrade enthüllt: Die neueste Version von DeepSeek senkt die Premium-Gebühren auf einen Bruchteil des Preises von GPT 5.5

Quelle
cryptonewstrend.com
Veröffentlicht
Revolutionäres KI-Upgrade enthüllt: Die neueste Version von DeepSeek senkt die Premium-Gebühren auf einen Bruchteil des Preises von GPT 5.5

Kurz gesagt

DeepSeek hat sein neues V4-Pro-Modell mit 1,6 Billionen Parametern veröffentlicht.

Es kostet 1,74 bzw. 3,48 US-Dollar pro Million Input-/Output-Tokens, etwa ein Zwanzigstel des Preises von Claude Opus 4.7 und 98 % weniger als GPT 5.5 Pro.

DeepSeek hat V4 teilweise auf Huawei-Ascend-Chips trainiert und so US-Exportbeschränkungen umgangen, und sagt, dass der ohnehin schon niedrige Preis des Pro-Modells noch weiter sinken wird, sobald im Laufe des Jahres 2026 950 neue Superknoten online gehen.

DeepSeek ist zurück und es tauchte ein paar Stunden nach der Veröffentlichung von GPT-5.5 durch OpenAI auf. Zufall? Vielleicht. Aber wenn Sie ein chinesisches KI-Labor sind, das die US-Regierung seit drei Jahren mit Chip-Exportverboten zu bremsen versucht, ist Ihr Gespür für das Timing ziemlich ausgeprägt.

Das in Hangzhou ansässige Labor hat heute Vorschauversionen von DeepSeek-V4-Pro und DeepSeek-V4-Flash veröffentlicht, beide Open-Weight, beide mit einer Million Token-Kontextfenstern. Das bedeutet, dass man grundsätzlich mit einem Kontext arbeiten kann, der ungefähr der Größe der „Herr der Ringe“-Trilogie entspricht, bevor das Modell zusammenbricht. Beide liegen zudem preislich weit unter dem vergleichbaren Angebot im Westen, und beide sind für diejenigen, die vor Ort in der Lage sind, kostenlos.

Die letzte große Störung von DeepSeek – R1 im Januar 2025 – hat Nvidias Marktkapitalisierung an einem einzigen Tag um 600 Milliarden US-Dollar vernichtet, da sich Investoren fragten, ob amerikanische Unternehmen wirklich so große Investitionen brauchten, um Ergebnisse zu erzielen, die ein kleines chinesisches Labor zu einem Bruchteil der Kosten erzielen konnte. V4 ist eine andere Art von Schritt: leiser, technischer und stärker auf Effizienz für alle ausgerichtet, die tatsächlich mit KI bauen.

Zwei Modelle, sehr unterschiedliche Jobs

Von den beiden neuen Modellen ist DeepSeeks V4-Pro mit 1,6 Billionen Gesamtparametern das große Modell. Um das ins rechte Licht zu rücken: Parameter sind die internen „Einstellungen“ oder „Gehirnzellen“, die ein Modell verwendet, um Wissen zu speichern und Muster zu erkennen – je mehr Parameter ein Modell hat, desto komplexere Informationen kann es theoretisch speichern. Damit ist es das bisher größte Open-Source-Modell auf dem LLM-Markt. Die Größe mag lächerlich klingen, bis Sie erfahren, dass nur 49 Milliarden davon pro Inferenzdurchlauf aktiviert werden.

Dies ist der Mixture-of-Experts-Trick, den DeepSeek seit Version 3 verfeinert hat: Das vollständige Modell befindet sich dort, aber nur der relevante Teil davon wird für eine bestimmte Anfrage aktiviert. Mehr Wissen, gleiche Rechenleistung.

„DeepSeek-V4-Pro-Max, der maximale Argumentationsaufwandsmodus von DeepSeek-V4-Pro, erweitert die Wissensfähigkeiten von Open-Source-Modellen erheblich und etabliert sich fest als das beste heute verfügbare Open-Source-Modell“, schrieb Deepseek in der offiziellen Karte des Modells auf Huggingface. „Es erreicht Spitzenleistungen bei Codierungs-Benchmarks und schließt deutlich die Lücke zu führenden Closed-Source-Modellen für Argumentations- und Agentenaufgaben.“

V4-Flash ist das Praktische: 284 Milliarden Parameter insgesamt, 13 Milliarden aktiv. Es ist darauf ausgelegt, schneller und kostengünstiger zu sein und laut DeepSeeks eigenen Benchmarks „bei einem größeren Denkbudget eine mit der Pro-Version vergleichbare Argumentationsleistung zu erzielen“.

Beide unterstützen eine Million Kontext-Tokens. Das sind ungefähr 750.000 Wörter – ungefähr die gesamte „Herr der Ringe“-Trilogie plus Änderungen. Und das ist eine Standardfunktion, keine Premium-Stufe.

Das (nicht ganz so) geheime Rezept von Deepseek: Aufmerksamkeit im großen Maßstab nicht schrecklich machen

Hier ist der technische Teil für Nerds oder diejenigen, die sich für die Magie interessieren, die das Modell antreibt. Deepseek verbirgt seine Geheimnisse nicht und alles ist kostenlos erhältlich – das vollständige Papier ist auf Github verfügbar.

Standardmäßige KI-Aufmerksamkeit – der Mechanismus, der es einem Modell ermöglicht, Beziehungen zwischen Wörtern zu verstehen – weist ein schwerwiegendes Skalierungsproblem auf. Jedes Mal, wenn Sie die Kontextlänge verdoppeln, vervierfachen sich die Rechenkosten ungefähr. Der Betrieb eines Modells mit einer Million Token ist also nicht nur doppelt so teuer wie 500.000 Token. Es ist viermal so teuer. Aus diesem Grund war der lange Kontext in der Vergangenheit ein Kontrollkästchen, das Labore hinzufügten und dann hinter den Ratengrenzen stillschweigend drosselten.

Um dies zu umgehen, hat DeepSeek zwei neue Aufmerksamkeitstypen erfunden. Die erste, Compressed Sparse Attention, funktioniert in zwei Schritten. Es komprimiert zunächst Gruppen von Token – beispielsweise alle 4 Token – in einem einzigen Eintrag. Anstatt sich dann um alle diese komprimierten Einträge zu kümmern, verwendet es einen „Lightning Indexer“, um nur die relevantesten Ergebnisse für eine bestimmte Abfrage auszuwählen. Ihr Modell geht von der Betreuung einer Million Token zur Betreuung eines viel kleineren Satzes der wichtigsten Stücke über, ähnlich wie ein Bibliothekar, der nicht jedes Buch liest, aber genau weiß, welches Regal er überprüfen muss.

Die zweite, stark komprimierte Aufmerksamkeit, ist aggressiver. Alle 128 Token werden in einem einzigen Eintrag zusammengefasst – keine spärliche Auswahl, nur brutale Komprimierung. Sie verlieren feinkörnige Details, erhalten aber eine äußerst kostengünstige Gesamtansicht. Die beiden Aufmerksamkeitstypen verlaufen in abwechselnden Schichten, sodass das Modell sowohl das Detail als auch den Überblick erhält.

Das Ergebnis aus dem technischen Artikel: Mit einer Million Token verbraucht V4-Pro 27 % der Rechenleistung, die sein Vorgänger (V3.2) benötigte. Der KV-Cache – der Speicher, den das Modell zum Verfolgen des Kontexts benötigt – sinkt auf nur 10 % von V3.2. V4-Flash geht noch einen Schritt weiter: 10 % der Rechenleistung, 7 % des Arbeitsspeichers