La société mère de Google présente des niveaux de paiement évolutifs pour les utilisateurs de l'API Gemini

Table des matières Le 2 avril, Google a déployé une mise à jour complète des prix de son API Gemini, introduisant cinq niveaux de service distincts : Standard, Flex, Priorité, Lot et Mise en cache. Cette extension offre aux développeurs une plus grande flexibilité pour optimiser leurs applications en fonction de la rentabilité, du temps de réponse et de la fiabilité des performances. Équilibrez coût et fiabilité avec nos nouveaux niveaux d'inférence Flex et Priority dans l'API Gemini ! Flex : payez 50 % de moins pour les charges de travail sensibles aux coûts et tolérantes à la latencePriorité : fiabilité la plus élevée pour vos applications interactives les plus critiques (avec un prix premium) Avec l'async… pic.twitter.com/dCCTZsQydX — Développeurs Google AI (@googleaidevs) 2 avril 2026 Le nouveau niveau Flex cible les opérations en arrière-plan non sensibles au temps qui peuvent tolérer des réponses retardées. En exploitant des ressources informatiques sous-utilisées pendant les périodes creuses, il offre une réduction de prix de 50 % par rapport aux tarifs standards. La latence de réponse varie entre 1 et 15 minutes sans délais de livraison garantis. Les applications idéales incluent la synchronisation des données CRM, les modèles de recherche informatique et les flux de travail automatisés des agents. Ce qui distingue Flex de l'API Batch préexistante est son architecture de point de terminaison synchrone. Les développeurs évitent la complexité liée à la gestion des entrées/sorties basées sur des fichiers ou à la surveillance de l’état d’avancement des tâches. Cette approche rationalisée maintient des avantages de coûts identiques tout en simplifiant la mise en œuvre. Alphabet Inc., GOOGL À l’inverse, le niveau Priorité s’adresse aux applications à enjeux élevés et urgentes. Avec des tarifs 75 à 100 % supérieurs aux tarifs standards, il garantit des temps de réponse rapides mesurés en millisecondes ou en secondes. Google positionne Priority pour des cas d'utilisation tels que les chatbots du service client en direct, les systèmes de prévention de la fraude en temps réel et le filtrage automatisé du contenu. Lorsque l'utilisation du niveau Priorité dépasse les quotas alloués, les demandes excédentaires passent progressivement au traitement du niveau Standard au lieu de générer des erreurs. L'API Batch d'origine continue de fonctionner avec 50 % d'économies et accepte des fenêtres de latence s'étendant jusqu'à 24 heures. Cette option convient aux calculs hors ligne intensifs pour lesquels des résultats immédiats ne sont pas nécessaires. Le niveau Mise en cache utilise des modèles de tarification basés sur les quantités de jetons et la durée de stockage du contenu. Google recommande ce niveau pour l'IA conversationnelle avec des invites système étendues, une analyse récurrente de grands ensembles de données vidéo ou des recherches dans d'importantes collections de documents. Les niveaux Flex et Priorité utilisent des paramètres service_tier identiques dans les appels d'API. Les développeurs peuvent basculer entre les niveaux grâce à de simples ajustements de configuration, avec des réponses API confirmant le niveau qui a traité chaque demande. L'accessibilité flexible s'étend à tous les abonnés du niveau payant utilisant les points de terminaison de l'API GenerateContent et Interactions. La priorité reste limitée aux comptes payants de niveau 2 et de niveau 3 accédant à des points de terminaison identiques. L'interface standardisée représente l'avancée la plus significative. Auparavant, la gestion des opérations en arrière-plan et des charges de travail interactives nécessitait des cadres architecturaux distincts pour le traitement synchrone et asynchrone. La mise à jour actuelle consolide les deux via des points de terminaison synchrones unifiés. Google a positionné cette amélioration comme partie intégrante de la prise en charge du développement d'agents IA, qui nécessite souvent la gestion simultanée de tâches en arrière-plan de faible priorité et de fonctions interactives urgentes. Lucia Loher, chef de produit Gemini API, et Hussein Hassan Harrirou, responsable de l'ingénierie, ont annoncé la mise à jour le 2 avril 2026.