作者stpiknow (H)
看板Tech_Job
标题[新闻] Google DeepMind推出Gemini Robotics 1.5
时间Tue Sep 30 13:55:50 2025
标题:Google DeepMind推出Gemini Robotics 1.5,让机器人能够思考後再行动
来源:iknow科技产业资讯室
原文网址:
https://pse.is/86wr55
原文:
基本上,能够创建文字、影像、音讯甚至视讯的生成式AI系统正变得日益普及。AI模型能
够输出这些资料类型,它们也可以用来输出机器人的动作。这正是Google DeepMind之
Gemini Robotics的基础。
如今该计画宣布了两个新模型,它们可以协同工作,创造出首批在行动前「思考」的机器
人。
Google DeepMind所推出了两款全新AI模型:Gemini Robotics 1.5 和 Gemini
Robotics-ER 1.5,旨在让机器人能够自行规划、理解和执行复杂任务。这两款模型都将
多模态感知、语言处理、运动控制与内部决策系统结合。
DeepMind 目前的机器人技术依赖两种模型:一种是「思考」模型,另一种是「行动」。
Gemini Robotics 1.5是视觉-语言-动作(VLA)模型,这意味着它使用视觉和文字资料来
产生机器人动作。另一个模型中的「ER」代表具身推理 (embodied reasoning)。这是一
个视觉-语言模型 (VLM),它接受视觉和文字输入来产生完成复杂任务所需的步骤。
第一个模型Gemini Robotics 1.5将这些规划转化为实际行动。与先前的VLA不同,此模型
先推理後行动:它会建立内部逻辑链,规划中间步骤,分解复杂任务,并解释其决策。例
如,在将衣物分类时,模型会识别目标(例如「将浅色衣物放入白色垃圾桶」),然後规
划抓取动作并执行。
至於Gemini Robotics-ER 1.5 是机器人的高阶「大脑」。它负责任务规划,使用谷歌搜
寻等数位工具,以自然语言进行交流,并监控进度和成功率。根据Google DeepMind 称,
该模型在 15 项具身推理基准测试上取得了最佳结果。
这两种模型都可以将其能力推广到不同类型的机器人。谷歌表示,ALOHA 2 机器人学习到
的运动模式也可以在Apptronik 的 Apollo 或双臂 Franka 机器人等平台上运行,无需额
外微调。
这些模型包含内建安全检查功能。在执行操作之前,Gemini Robotics 1.5 会检查移动是
否安全,并在需要时触发防撞等功能。
这两种型号都基於更广泛的 Gemini 多模态系列,并针对机器人技术进行了专门调整。
Gemini Robotics-ER 1.5 现已透过 Google AI Studio 中的 Gemini API 提供,目前仅
限部分合作夥伴使用。
总之,有别於传统依赖单一资料和特定平台的训练方式,Gemini Robotics 1.5系列模型
使机器人能够跨平台迁移技能,并在复杂环境中展现出类人适应性,拓展了机器人模型的
通用性。这也成为众多厂商建构机器人模型的目标之一。
过去机器人往往只能依循固定程式,在既定框架下完成单调任务,如今藉由具身推理与跨
平台学习,它们不仅能理解环境、规划多步骤任务,甚至能把一种硬体的经验快速转移到
另一种机器人身上,这意味着未来的机器学习将不再是耗时的重复过程,而是一种「即学
即用」的演化模式。心得:
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 203.145.192.245 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1759211752.A.DBF.html
1F:推 dakkk: 还有几集可逃101.138.175.187 09/30 14:10
2F:推 darot: 试试看 不知道是不是真的有这麽厉害 49.217.198.228 09/30 15:35
3F:推 jiansu: 工厂的简单繁琐工作流程自动化 才是ai被 36.226.218.227 09/30 16:35
4F:→ jiansu: 设想的目标便利应用 现在把程式/视觉/音 36.226.218.227 09/30 16:35
5F:→ jiansu: 乐 搞成这麽强大 简直就是意外 36.226.218.227 09/30 16:35
6F:推 michellehot: ALOHA滑蛋虾仁喂你吃 49.214.1.218 09/30 16:56
7F:推 DonnyDon: 光靠实验室数据 是能练个鬼114.136.186.252 09/30 19:39
8F:推 DrFord: 未来AR普及了可能有助於具身智能的发展 27.52.2.50 09/30 19:40
9F:→ DrFord: 反倒是锁螺丝的工人最後被AI取代 27.52.2.50 09/30 19:41
10F:→ DrFord: 也是蛮讽刺的 27.52.2.50 09/30 19:41
11F:嘘 pig2014: 我猜用nv omniverse train出来的 223.23.255.68 10/01 13:19