我们正式向所有开发者开放最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。作为首款被广泛开放的 Gemini Robotics 模型,它充当机器人的高级推理“大脑”,专注于机器人领域的关键能力,包括视觉与空间理解、任务规划和进度评估。
该模型能够原生调用 Google 搜索等工具来获取信息,也可以调用视觉-语言-动作模型 (VLA) 或任何第三方用户自定义函数来执行具体任务。现在,您可以通过 Google AI Studio 和 Gemini API,以预览版的形式开始使用 Gemini Robotics-ER 1.5 进行开发。
专为复杂机器人任务而生
对于机器人而言,许多日常任务极具挑战性。想象一下,你对机器人说:“请把这些物品分类投放到正确的厨余、可回收和其它垃圾桶里。”
要完成这项任务,机器人需要:
- 上网查询当地的垃圾分类指南。
- 理解眼前的物品是什么。
- 根据本地规则制定分类方案。
- 执行所有步骤,完成投放。
像这样的大多数日常任务,都需要结合上下文信息并分多步才能完成。Gemini Robotics-ER 1.5 正是首款为此类具身推理 (Embodied Reasoning) 优化的思考模型。它在学术基准和源于真实世界用例的内部基准测试中均达到了业界领先水平。
Gemini Robotics-ER 1.5 是我们最先进的具身推理模型,同时作为通用的多模态基础模型,它也保持了强大的综合性能。
Gemini Robotics-ER 1.5 的新特性
Gemini Robotics-ER 1.5 专为机器人应用进行了调优,并引入了多项新功能:
快速强大的空间推理
模型以媲美 Gemini Flash 的低延迟,提供顶尖的空间理解能力。它擅长生成语义精确的 2D 坐标点,并能结合物品的尺寸、重量和功能可供性(affordances)进行推理,从而实现如“指出所有你能拿起的物体”这类指令,达成精确、响应迅速的交互。
编排高级智能体行为
利用先进的时空推理、规划和成功检测能力,模型能够可靠地执行长时程任务循环(例如,“按照这张照片重新整理我的办公桌”)。它还能原生调用 Google 搜索等工具和任何第三方用户自定义函数(例如,“根据本地规定将垃圾分类”)。
灵活的“思考预算”
开发者现在可以直接控制模型的延迟与准确性之间的权衡。这意味着,你可以让模型为复杂任务(如规划一个多步骤的装配流程)“思考更长时间”,或者为需要快速反应的任务(如检测或指向一个物体)要求即时响应。
增强的安全过滤器
模型提升了语义安全能力,能更好地识别并拒絕生成违反物理约束的计划(例如,超出机器人的有效载荷),让您的开发更具信心。
机器人的智能体“大脑”
您可以将 Gemini Robotics-ER 1.5 视为机器人的高级“大脑”。它能理解复杂的自然语言指令,对长时程任务进行推理,并协调复杂的行为。
这意味着它不仅擅长感知(理解场景中有什么以及该做什么),还能将一个复杂的请求(如“把桌子收拾干净”)分解成一个详细计划,并调用合适的工具来执行,无论是机器人的硬件 API、专门的抓取模型,还是用于电机控制的视觉-语言-动作模型 (VLA)。
功能详解:先进的时空理解能力
为了与物理世界互动,机器人必须能够感知和理解其所处的环境。Gemini Robotics-ER 1.5 经过精调,能够生成高质量的空间信息,例如为物体提供精确的 2D 坐标点。
2D 坐标点生成
给定一张厨房场景的图片,Gemini Robotics-ER 1.5 可以提供其中每个物体(或物体的一部分)的位置。这些信息与机器人的 3D 传感器数据结合后,即可确定物体在空间中的精确位置,从而让您的规划库生成准确的运动规划。
提示 (Prompt):
Point to the following items in the image: dish soap, dish rack, faucet, rice cooker, unicorn. The points are in [y, x] format normalized to 0-1000. Only include objects that are actually present in the image.
指向图中的以下物品:洗洁精、碗碟架、水龙头、电饭煲、独角兽。坐标点格式为 [y, x],范围归一化至 0-1000。只包含图中实际存在的物体。
请注意,我们在提示中要求模型只包含图像中实际存在的物品,这可以防止模型产生幻觉(例如为不存在的“独角兽”生成坐标点),使其始终基于视觉现实。
我们还可以将此技术扩展到视频流,仅在特定状态的物体(例如,一个容器是打开还是关闭)在画面中可见时才高亮显示。
时间推理
定位物体是基础,而真正的时空推理则需要理解物体与动作之间随时间展开的关系。Gemini Robotics-ER 1.5 能够通过处理视频来理解物理世界中的因果关系。
例如,在一段视频中,一个机械臂将一支绿色记号笔放入木盘,然后将蓝色和红色的笔放入圆柱形容器中。当我们要求模型回顾这个序列,并按顺序列出完成的任务,以及在两个时间戳之间发生了什么时,它给出了完全正确的答案。这证明了它不仅能理解场景中有什么,还能推理出场景中发生了什么。
提示 (Prompt):
Describe in detail each step of finishing the task. Breaking it down by timestamp, output in json format with keys "start_timestamp", "end_timestamp" and "description".
详细描述完成任务的每一步。按时间戳分解,以 JSON 格式输出,包含 “start_timestamp”、“end_timestamp” 和 “description” 键。
响应 (Response):
[
{
"start_timestamp": "00:02",
"end_timestamp": "00:13",
"description": "The left robotic arm picks up the green marker from the table and places it into the wooden tray."
},
{
"start_timestamp": "00:15",
"end_timestamp": "00:22",
"description": "The left robotic arm picks up the blue pen from the table and places it into the black mesh pen cup."
},
{
"start_timestamp": "00:23",
"end_timestamp": "00:28",
"description": "The right robotic arm picks up the red pen from the table and places it into the black mesh pen cup, completing the task of organizing the writing utensils."
}
]
输出在时间上是准确的,将其叠加在原始视频上,可以清晰地看到模型对机器人运动的精确理解。
基于功能可供性(Affordance)的推理与长时程任务规划
当启用“思考”功能时,模型可以对复杂的指向和边界框查询进行推理。以下是一个制作咖啡的逐步演示,展示了模型对完成任务所需的“如何做”和“在哪里做”的理解。
提示 1: 放置杯子
Identify where I should put my mug to make a cup of coffee. Return a list of JSON objects in the format: [{"box_2d": [y_min, x_min, y_max, x_min], "label": <label>}]`, where the coordinates are normalized between 0-1000.
识别出我应该把杯子放在哪里来煮咖啡。返回一个 JSON 对象列表…
提示 2: 放置咖啡胶囊
Where should I put the coffee pod?
我应该把咖啡胶囊放在哪里?
提示 3: 规划关闭盖子的轨迹
Now, I need to close the coffee maker. Plot a trajectory of 8 points that indicates how the handle of the lid should move to close it. Start from the handle. Points are [Y,X] in normalized coordinates [0 - 1000]. Please output all points, including the trajectory points in the format. [{"point": [Y, X], "label": }, {"point": [Y, X], "label": }, ...].
现在,我需要关闭咖啡机。请规划一条包含 8 个点的轨迹,指示盖子把手应如何移动以关闭它…
提示 4: 清理杯子
I finished my coffee. Where should I put my mug now to clean up? Return a list of JSON objects in the format: [{"point": [y, x], "label": <label>}], where the coordinates are normalized between 0-1000.
我喝完咖啡了。现在应该把杯子放在哪里清洗?…
另一个例子是将规划与空间定位相结合,生成一个“空间定位规划”。只需一个简单的提示即可实现:
“解释如何将垃圾分类到垃圾桶中。并指出你提到的每一个物体。每个点应采用格式:
[{"point": [y, x], "label": <label>}]
,坐标归一化至 0-1000。”
模型的响应会包含交错的文本和坐标点,可以渲染成一个动态的指示动画。
灵活的“思考预算”
下图展示了在使用 Gemini Robotics-ER 1.5 时,调整“思考预算”对延迟和性能的影响。
模型的性能随着“思考预算”(thinking token budget)的增加而提升。对于简单的空间理解任务(如物体检测),在非常短的“思考预算”下性能已经很高;而更复杂的推理任务则受益于更大的预算。这使得开发者可以在需要低延迟响应和需要高准确性结果的挑战性任务之间取得平衡。
Gemini Robotics-ER 1.5 使用推理时计算伸缩(inference-time compute scaling)来提升性能。“思考预算”是可调的。虽然 Gemini Robotics-ER 1.5 模型默认启用了思考功能,但您可以通过在请求中包含 thinking_config
选项来设置预算,甚至禁用它。
安全说明
我们致力于为您的机器人应用构建一个负责任的基础。Gemini Robotics-ER 1.5 在安全性方面取得了显著进步,增强了以下两个方面的过滤器:
- 语义安全:模型被设计为能够理解并拒绝为危险或有害任务生成计划,其能力已通过 ASIMOV Benchmark 等基准进行了严格评估。
- 物理约束感知:模型现在能更好地识别用户定义的物理约束(如机器人的有效载荷或工作空间限制)何时会被违反。
然而,这些模型层面的安全保障不能替代物理系统所需的严格安全工程。我们提倡采用“瑞士奶酪模型”方法来保障安全,即通过多层保护共同作用。开发者有责任为其实体系统实施标准的安全措施。
👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API:
- 购买 / 了解更多:ai4.plus
- 备用入口:kk4099.com