La empresa matriz de Google presenta niveles de pago escalables para usuarios de la API Gemini

Tabla de contenido El 2 de abril, Google lanzó una actualización integral de precios para su API Gemini, presentando cinco niveles de servicio separados: Estándar, Flex, Prioridad, Lote y Almacenamiento en caché. Esta expansión proporciona a los desarrolladores una mayor flexibilidad para optimizar sus aplicaciones en función de la rentabilidad, el tiempo de respuesta y la confiabilidad del rendimiento. ¡Equilibre costos y confiabilidad con nuestros nuevos niveles de inferencia Flex y Priority en la API de Gemini! Flex: pague un 50% menos por cargas de trabajo sensibles a los costos y tolerantes a la latenciaPrioridad: máxima confiabilidad para sus aplicaciones interactivas más importantes (con precios premium) Junto con el async… pic.twitter.com/dCCTZsQydX — Desarrolladores de IA de Google (@googleaidevs) 2 de abril de 2026 El nivel Flex recientemente introducido apunta a operaciones en segundo plano que no dependen del tiempo y que pueden tolerar respuestas retrasadas. Al aprovechar los recursos informáticos infrautilizados durante los períodos de menor actividad, ofrece una reducción de precio del 50 % en comparación con las tarifas estándar. La latencia de respuesta varía entre 1 y 15 minutos sin tiempos de entrega garantizados. Las aplicaciones ideales incluyen sincronización de datos CRM, modelos de investigación computacional y flujos de trabajo automatizados de agentes. Lo que distingue a Flex de la API Batch preexistente es su arquitectura de punto final sincrónica. Los desarrolladores evitan la complejidad de administrar entradas/salidas basadas en archivos o monitorear el estado de finalización del trabajo. Este enfoque simplificado mantiene beneficios de costos idénticos al tiempo que simplifica la implementación. Alphabet Inc., GOOGL Por el contrario, el nivel Prioritario aborda aplicaciones de alto riesgo y en las que el tiempo es crítico. Con precios entre un 75 % y un 100 % superiores a las tarifas estándar, garantiza tiempos de respuesta rápidos medidos en milisegundos y segundos. Google posiciona Prioridad para casos de uso como chatbots de servicio al cliente en vivo, sistemas de prevención de fraude en tiempo real y filtrado de contenido automatizado. Cuando el uso del nivel Prioritario excede las cuotas asignadas, las solicitudes excedentes pasan elegantemente al procesamiento del nivel Estándar en lugar de generar errores. La API Batch original continúa funcionando con un ahorro de costos del 50 % y acepta ventanas de latencia que se extienden hasta 24 horas. Esta opción se adapta a cálculos intensivos fuera de línea donde no son necesarios resultados inmediatos. El nivel de almacenamiento en caché emplea modelos de precios basados en cantidades de tokens y duración del almacenamiento de contenido. Google recomienda este nivel para IA conversacional con indicaciones extensas del sistema, análisis recurrentes de grandes conjuntos de datos de video o búsquedas en colecciones importantes de documentos. Tanto el nivel Flex como el Priority utilizan parámetros service_tier idénticos dentro de las llamadas API. Los desarrolladores pueden cambiar entre niveles mediante simples ajustes de configuración, con respuestas de API que confirman el nivel que procesó cada solicitud. La accesibilidad flexible se extiende a todos los suscriptores del nivel pago que utilizan los puntos finales de GenerateContent e Interactions API. La prioridad sigue restringida a las cuentas pagas de Nivel 2 y 3 que acceden a puntos finales idénticos. La interfaz estandarizada representa el avance más significativo. Anteriormente, la gestión de operaciones en segundo plano y cargas de trabajo interactivas requería marcos arquitectónicos separados para el procesamiento sincrónico y asincrónico. La actualización actual consolida ambos a través de puntos finales sincrónicos unificados. Google posicionó esta mejora como parte integral del soporte al desarrollo de agentes de IA, que con frecuencia requiere el manejo simultáneo de tareas en segundo plano de baja prioridad y funciones interactivas urgentes. La gerente de producto API de Gemini, Lucia Loher, y el líder de ingeniería, Hussein Hassan Harrirou, anunciaron la actualización el 2 de abril de 2026.