Google-Mutterunternehmen führt skalierbare Zahlungsstufen für Gemini-API-Nutzer ein

Inhaltsverzeichnis Am 2. April führte Google ein umfassendes Preisupdate für seine Gemini-API ein und führte fünf separate Servicestufen ein: Standard, Flex, Priority, Batch und Caching. Diese Erweiterung bietet Entwicklern mehr Flexibilität bei der Optimierung ihrer Anwendungen auf der Grundlage von Kosteneffizienz, Reaktionszeit und Leistungszuverlässigkeit. Bringen Sie Kosten und Zuverlässigkeit in Einklang mit unseren neuen Flex- und Priority-Inferenzebenen in der Gemini-API! Flex: Zahlen Sie 50 % weniger für kostenempfindliche und latenztolerante Arbeitslasten. Priorität: Höchste Zuverlässigkeit für Ihre wichtigsten, interaktiven Apps (mit Premium-Preisen). Zusammen mit der asynchronen… pic.twitter.com/dCCTZsQydX – Google AI Developers (@googleaidevs) 2. April 2026 Die neu eingeführte Flex-Stufe zielt auf nicht zeitkritische Hintergrundvorgänge ab, die verzögerte Antworten tolerieren können. Durch die Nutzung nicht ausgelasteter Rechenressourcen außerhalb der Spitzenzeiten wird eine Preissenkung von 50 % im Vergleich zu den Standardtarifen erzielt. Die Antwortlatenz variiert zwischen 1 und 15 Minuten ohne garantierte Lieferzeiten. Zu den idealen Anwendungen gehören die Synchronisierung von CRM-Daten, rechnergestützte Forschungsmodelle und automatisierte Agenten-Workflows. Was Flex von der bereits vorhandenen Batch-API unterscheidet, ist seine synchrone Endpunktarchitektur. Entwickler vermeiden die Komplexität der Verwaltung dateibasierter Ein-/Ausgaben oder der Überwachung des Auftragsabschlussstatus. Dieser optimierte Ansatz bietet identische Kostenvorteile und vereinfacht gleichzeitig die Implementierung. Alphabet Inc., GOOGL Umgekehrt befasst sich die Prioritätsstufe mit zeitkritischen Anwendungen mit hohem Risiko. Mit Preisen, die 75 % bis 100 % über den Standardtarifen liegen, garantiert es schnelle Reaktionszeiten im Millisekunden- bis Sekundenbereich. Google räumt Anwendungsfällen wie Live-Kundenservice-Chatbots, Echtzeit-Betrugspräventionssystemen und automatisierter Inhaltsfilterung Priorität ein. Wenn die Nutzung der Prioritätsstufe die zugewiesenen Kontingente überschreitet, werden überschüssige Anforderungen ordnungsgemäß zur Verarbeitung der Standardstufe weitergeleitet, anstatt Fehler zu generieren. Die ursprüngliche Batch-API arbeitet weiterhin mit 50 % Kosteneinsparungen und akzeptiert Latenzfenster von bis zu 24 Stunden. Diese Option eignet sich für intensive Offline-Berechnungen, bei denen keine sofortigen Ergebnisse erforderlich sind. Die Caching-Stufe verwendet Preismodelle, die auf Token-Mengen und der Speicherdauer von Inhalten basieren. Google empfiehlt diese Stufe für Konversations-KI mit umfangreichen Systemeingabeaufforderungen, wiederkehrenden Analysen großer Videodatensätze oder Suchvorgänge in umfangreichen Dokumentensammlungen. Sowohl die Flex- als auch die Priority-Stufe nutzen identische service_tier-Parameter in API-Aufrufen. Entwickler können durch einfache Konfigurationsanpassungen zwischen den Ebenen wechseln, wobei API-Antworten die Ebene bestätigen, die jede Anfrage verarbeitet hat. Der flexible Zugriff erstreckt sich auf alle Abonnenten der kostenpflichtigen Stufe, die GenerateContent- und Interactions-API-Endpunkte verwenden. Die Priorität bleibt auf kostenpflichtige Konten der Stufen 2 und 3 beschränkt, die auf identische Endpunkte zugreifen. Den bedeutendsten Fortschritt stellt die standardisierte Schnittstelle dar. Bisher waren für die Verwaltung sowohl von Hintergrundvorgängen als auch interaktiver Arbeitslasten separate Architekturrahmen für die synchrone und asynchrone Verarbeitung erforderlich. Das aktuelle Update konsolidiert beides durch einheitliche synchrone Endpunkte. Google positionierte diese Verbesserung als integralen Bestandteil der Unterstützung der Entwicklung von KI-Agenten, die häufig die gleichzeitige Bearbeitung von Hintergrundaufgaben mit niedriger Priorität und zeitkritischen interaktiven Funktionen erfordert. Gemini API-Produktmanagerin Lucia Loher und technischer Leiter Hussein Hassan Harrirou kündigten das Update am 2. April 2026 an.