Gemini 2.5 计算机使用模型:赋能新一代 AI 智能体
我们正式发布 Gemini 2.5 计算机使用模型 (Computer Use model)。这款全新的专用模型基于 Gemini 2.5 Pro 强大的视觉理解和推理能力构建,旨在驱动能够与用户界面 (UI) 直接交互的 AI 智能体。 目前,该模型已在多个网页和移动设备控制基准测试中超越了主流替代方案,并实现了更低的延迟。开发者现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 预览并使用这些功能。 为何需要与图形界面交互的 AI? 虽然 AI 模型可以通过结构化的 API 与软件进行交互,但许多数字化任务仍然需要直接操作图形用户界面 (GUI) 才能完成,例如填写并提交表单。 为了完成这些任务,AI 智能体必须像人类一样,通过点击、输入和滚动等操作来浏览网页和应用程序。原生支持填写表单、操作下拉菜单和筛选器等交互式元素,以及在登录后执行任务的能力,是构建通用强力智能体的关键一步。 工作原理 该模型的核心能力通过 Gemini API 中新增的 computer_use 工具开放。其工作模式是一个循环迭代的过程: 输入: 智能体接收用户请求、当前环境的屏幕截图以及最近的操作历史记录作为输入。开发者还可以指定排除某些 UI 操作或添加额外的自定义函数。 模型分析与响应: 模型分析输入信息,并生成一个响应。该响应通常是一个函数调用,代表一个 UI 操作(如点击或输入文本)。对于某些敏感操作(如执行购买),响应中可能会包含一个请求,要求最终用户进行确认。 客户端执行: 客户端代码执行模型返回的操作指令。 反馈: 操作执行后,新的界面截图和当前 URL 会作为函数响应回传给模型,从而重新启动循环。 这个迭代过程会持续进行,直到任务完成、发生错误,或因安全策略或用户决策而终止。 Gemini 2.5 计算机使用模型主要针对网页浏览器进行了优化,同时在移动 UI 控制任务中也展现出巨大潜力。目前,该模型尚未针对桌面操作系统的控制进行优化。 实际应用示例 以下是模型执行任务的两个示例: 任务一:跨应用数据处理与预约 提示:“从 获取所有居住在加州的宠物的详细信息,并将它们作为访客添加到我的宠物水疗中心 CRM 系统 中。然后,为它们预约专家 Anima Lavar 在 10 月 10 日上午 8 点后的任何时间进行回访。访问原因与它们申请的治疗项目相同。” ...