谷歌母公司为 Gemini API 用户推出可扩展的支付等级

4 月 2 日，Google 推出了 Gemini API 的全面定价更新，引入了五个独立的服务级别：标准、Flex、优先级、批量和缓存。这种扩展为开发人员提供了更大的灵活性，可以根据成本效率、响应时间和性能可靠性来优化其应用程序。利用 Gemini API 中新的 Flex 和 Priority 推理层平衡成本和可靠性！ Flex：为成本敏感和延迟容忍的工作负载支付 50% 的费用优先：为最关键的交互式应用程序提供最高的可靠性（具有溢价）以及异步... pic.twitter.com/dCCTZsQydX — Google AI 开发人员 (@googleaidevs) 2026 年 4 月 2 日新推出的 Flex 层针对可以容忍延迟响应的非时间敏感型后台操作。通过利用非高峰时段未充分利用的计算资源，与标准费率相比，价格可降低 50%。响应延迟在 1 到 15 分钟之间变化，不保证交付时间。理想的应用包括 CRM 数据同步、计算研究模型和自动化代理工作流程。 Flex 与现有 Batch API 的区别在于其同步端点架构。开发人员避免了管理基于文件的输入/输出或监视作业完成状态的复杂性。这种简化的方法在简化实施的同时保持了相同的成本效益。 Alphabet Inc.、GOOGL 相反，优先级解决高风险、时间关键的应用程序。它的定价比标准费率高出 75% 到 100%，保证了以毫秒到秒为单位的快速响应时间。 Google 优先考虑实时客户服务聊天机器人、实时欺诈预防系统和自动内容过滤等用例。当优先级层使用量超过分配的配额时，多余的请求会优雅地转移到标准层处理，而不是生成错误。原始 Batch API 继续运行，成本节省 50%，并接受延长至 24 小时的延迟窗口。此选项适合不需要立即结果的密集离线计算。缓存层采用基于令牌数量和内容存储持续时间的定价模型。谷歌建议将此层用于具有广泛系统提示的对话式人工智能、大型视频数据集的重复分析或跨大量文档集合的搜索。 Flex 层和 Priority 层在 API 调用中都使用相同的 service_tier 参数。开发人员可以通过简单的配置调整在各层之间切换，API 响应会确认处理每个请求的层。 Flex 可访问性扩展到使用GenerateContent 和Interactions API 端点的所有付费订阅者。优先级仍然仅限于访问相同端点的第 2 层和第 3 层付费帐户。标准化接口代表了最重要的进步。以前，管理后台操作和交互式工作负载需要单独的架构框架来进行同步和异步处理。当前的更新通过统一的同步端点整合了两者。谷歌将这一增强功能定位为支持人工智能代理开发不可或缺的一部分，这通常需要同时处理低优先级后台任务和时间敏感的交互功能。 Gemini API 产品经理 Lucia Loher 和工程主管 Hussein Hassan Harrirou 于 2026 年 4 月 2 日宣布了这一更新。