我们正式发布 Gemini 2.5 计算机使用模型 (Computer Use model)。这款全新的专用模型基于 Gemini 2.5 Pro 强大的视觉理解和推理能力构建,旨在驱动能够与用户界面 (UI) 直接交互的 AI 智能体。

目前,该模型已在多个网页和移动设备控制基准测试中超越了主流替代方案,并实现了更低的延迟。开发者现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 预览并使用这些功能。

为何需要与图形界面交互的 AI?

虽然 AI 模型可以通过结构化的 API 与软件进行交互,但许多数字化任务仍然需要直接操作图形用户界面 (GUI) 才能完成,例如填写并提交表单。

为了完成这些任务,AI 智能体必须像人类一样,通过点击、输入和滚动等操作来浏览网页和应用程序。原生支持填写表单、操作下拉菜单和筛选器等交互式元素,以及在登录后执行任务的能力,是构建通用强力智能体的关键一步。

工作原理

该模型的核心能力通过 Gemini API 中新增的 computer_use 工具开放。其工作模式是一个循环迭代的过程:

  1. 输入: 智能体接收用户请求、当前环境的屏幕截图以及最近的操作历史记录作为输入。开发者还可以指定排除某些 UI 操作或添加额外的自定义函数。

  2. 模型分析与响应: 模型分析输入信息,并生成一个响应。该响应通常是一个函数调用,代表一个 UI 操作(如点击或输入文本)。对于某些敏感操作(如执行购买),响应中可能会包含一个请求,要求最终用户进行确认。

  3. 客户端执行: 客户端代码执行模型返回的操作指令。

  4. 反馈: 操作执行后,新的界面截图和当前 URL 会作为函数响应回传给模型,从而重新启动循环。

这个迭代过程会持续进行,直到任务完成、发生错误,或因安全策略或用户决策而终止。

Gemini 2.5 计算机使用模型主要针对网页浏览器进行了优化,同时在移动 UI 控制任务中也展现出巨大潜力。目前,该模型尚未针对桌面操作系统的控制进行优化。

实际应用示例

以下是模型执行任务的两个示例:

任务一:跨应用数据处理与预约

提示:“从 获取所有居住在加州的宠物的详细信息,并将它们作为访客添加到我的宠物水疗中心 CRM 系统 中。然后,为它们预约专家 Anima Lavar 在 10 月 10 日上午 8 点后的任何时间进行回访。访问原因与它们申请的治疗项目相同。”

任务二:信息整理与分类

提示:“我的艺术俱乐部为即将到来的展览会进行了一次头脑风暴,但任务板非常混乱。我需要你帮忙将这些任务整理到我创建好的分类中。请访问 sticky-note-jam.web.app,确保所有便签都清晰地归入正确的区域,如果位置不对,请将它们拖过去。”

性能表现

Gemini 2.5 计算机使用模型在多个网页和移动设备控制基准测试中表现出色。根据我们自身、Browserbase 以及其他来源的公开数据显示,该模型在浏览器控制方面实现了领先的质量和最低的延迟。例如,在 Browserbase 的 Online-Mind2Web 评测工具集上,该模型在保持低延迟的同时,也取得了极高的准确率。

安全机制

我们坚信,构建惠及所有人的 AI 智能体,必须从一开始就将责任置于首位。能够控制计算机的 AI 智能体带来了独特的风险,包括用户的恶意滥用、意外的模型行为以及网络环境中的提示注入和诈骗。

因此,我们审慎地实施了多重安全护栏。我们直接在模型训练中融入了安全功能,以应对上述三大关键风险。此外,我们还为开发者提供了以下安全控制措施,以防止模型自动完成潜在的高风险或有害操作(如损害系统完整性、危及安全、绕过验证码或控制医疗设备):

  • 逐步安全服务 (Per-step safety service): 这是一个在模型之外、于推理时运行的安全服务。它会在模型提议的每个动作被执行前进行评估。
  • 系统指令 (System instructions): 开发者可以进一步指定,在执行特定类型的高风险操作前,智能体必须拒绝或请求用户确认。

我们强烈建议所有开发者在发布系统前进行彻底的测试。更多关于安全措施和最佳实践的建议,请参阅相关文档。

早期用户与应用案例

Google 内部团队已将该模型部署到生产环境中,用于 UI 测试等场景,显著加快了软件开发速度。该模型的不同版本也已为 Project Mariner、Firebase 测试智能体以及搜索中的 AI 模式等项目提供了支持。

早期试用计划的用户也已开始测试该模型,用于构建个人助理、工作流自动化和 UI 测试,并取得了良好效果。

如何开始使用

从即日起,该模型已作为公开预览版提供。开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API进行访问。

  • 快速体验: 在 Browserbase 托管的演示环境中试用模型。
  • 动手构建: 参考官方文档,学习如何使用 Playwright 在本地或通过 Browserbase 在云虚拟机中构建自己的智能体循环。企业级应用请参考 Vertex AI 文档。
  • 加入社区: 我们期待看到您的创作。欢迎在开发者论坛中分享您的反馈,帮助我们规划未来的产品路线图。

👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API