Gemini Robotics-ER 1.5:为下一代实体机器人打造智能大脑
我们正式向所有开发者开放最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。作为首款被广泛开放的 Gemini Robotics 模型,它充当机器人的高级推理“大脑”,专注于机器人领域的关键能力,包括视觉与空间理解、任务规划和进度评估。 该模型能够原生调用 Google 搜索等工具来获取信息,也可以调用视觉-语言-动作模型 (VLA) 或任何第三方用户自定义函数来执行具体任务。现在,您可以通过 Google AI Studio 和 Gemini API,以预览版的形式开始使用 Gemini Robotics-ER 1.5 进行开发。 专为复杂机器人任务而生 对于机器人而言,许多日常任务极具挑战性。想象一下,你对机器人说:“请把这些物品分类投放到正确的厨余、可回收和其它垃圾桶里。” 要完成这项任务,机器人需要: 上网查询当地的垃圾分类指南。 理解眼前的物品是什么。 根据本地规则制定分类方案。 执行所有步骤,完成投放。 像这样的大多数日常任务,都需要结合上下文信息并分多步才能完成。Gemini Robotics-ER 1.5 正是首款为此类具身推理 (Embodied Reasoning) 优化的思考模型。它在学术基准和源于真实世界用例的内部基准测试中均达到了业界领先水平。 Gemini Robotics-ER 1.5 是我们最先进的具身推理模型,同时作为通用的多模态基础模型,它也保持了强大的综合性能。 Gemini Robotics-ER 1.5 的新特性 Gemini Robotics-ER 1.5 专为机器人应用进行了调优,并引入了多项新功能: 快速强大的空间推理 模型以媲美 Gemini Flash 的低延迟,提供顶尖的空间理解能力。它擅长生成语义精确的 2D 坐标点,并能结合物品的尺寸、重量和功能可供性(affordances)进行推理,从而实现如“指出所有你能拿起的物体”这类指令,达成精确、响应迅速的交互。 编排高级智能体行为 利用先进的时空推理、规划和成功检测能力,模型能够可靠地执行长时程任务循环(例如,“按照这张照片重新整理我的办公桌”)。它还能原生调用 Google 搜索等工具和任何第三方用户自定义函数(例如,“根据本地规定将垃圾分类”)。 灵活的“思考预算” 开发者现在可以直接控制模型的延迟与准确性之间的权衡。这意味着,你可以让模型为复杂任务(如规划一个多步骤的装配流程)“思考更长时间”,或者为需要快速反应的任务(如检测或指向一个物体)要求即时响应。 增强的安全过滤器 模型提升了语义安全能力,能更好地识别并拒絕生成违反物理约束的计划(例如,超出机器人的有效载荷),让您的开发更具信心。 机器人的智能体“大脑” 您可以将 Gemini Robotics-ER 1.5 视为机器人的高级“大脑”。它能理解复杂的自然语言指令,对长时程任务进行推理,并协调复杂的行为。 这意味着它不仅擅长感知(理解场景中有什么以及该做什么),还能将一个复杂的请求(如“把桌子收拾干净”)分解成一个详细计划,并调用合适的工具来执行,无论是机器人的硬件 API、专门的抓取模型,还是用于电机控制的视觉-语言-动作模型 (VLA)。 ...