DeepMind 机器人团队在一篇新研究论文中解释了如何使用 Gemini 1.5 Pro 的长上下文窗口(决定 AI 模型可以处理多少信息)让用户更轻松地使用自然语言指令与其 RT-2 机器人进行交互。
这项技术的工作原理是拍摄指定区域(例如家庭或办公室空间)的视频,研究人员使用 Gemini 1.5 Pro 让机器人观看视频以了解环境。
然后,机器人可以根据观察到的情况,使用口头和 / 或图像输出执行命令 - 例如在向用户展示手机并询问「我在哪里可以给它充电?」之后,引导用户到电源插座IM体育平台官网入口。
DeepMind 表示,其 Gemini 驱动的机器人在 9,000 多平方英尺的操作区域内对 50 多条用户指令的成功率达到 90%。
研究人员还发现初步证据,表明 Gemini 1.5 Pro 使其机器人能够规划如何执行除导航之外的指令。
例如,当办公桌上有很多可乐罐的用户询问机器人是否有他们最喜欢的饮料时,该团队表示 Gemini 知道机器人应该导航到冰箱IM体育平台官网入口,检查是否有可乐,然后返回给用户报告结果。
谷歌提供的视频演示令人印象深刻,尽管根据研究报告,IM体育官网登录机器人确认每个请求后明显的切换掩盖了处理这些指令需要 10-30 秒的时间。我们可能还需要一段时间才能与更先进的环境地图机器人共享我们的家园,但至少这些机器人可能能够找到我们丢失的钥匙或钱包。