谷歌DeepMind发布下一代AI代理SIMA 2(视频)

Photo of author

By Global Team

谷歌DeepMind公开了下一代AI代理SIMA 2,加速了通用AI技术的竞争。

SIMA 2通过整合Gemini扩展了环境理解和推理能力,并显著提高了执行复杂任务的能力。研究团队解释说,SIMA 2具备自我积累经验以提高性能的结构。

谷歌DeepMind去年3月首次公开了SIMA 1。当时,SIMA 1是在各种3D游戏数据的基础上进行训练的代理,可以在多个虚拟环境中执行指令。然而,完成复杂任务的比例仅为31%,显示出明显的局限性。为了解决这些问题,DeepMind开始研发SIMA 2。

SIMA 2性能提升到SIMA 1的两倍 (来源=Google DeepMind)
SIMA 2性能提升到SIMA 1的两倍 (来源=Google DeepMind)

DeepMind首席研究员Joe Marino解释说,SIMA 2的性能相比SIMA 1提高了一倍。他表示,SIMA 2可以在没有先前经验的环境中完成复杂的任务。

SIMA 2在没有先前环境经验的情况下也能处理任务。

Marino表示,SIMA 2的最大变化在于“即使在首次接触的环境中也能完成复杂的任务”。他指出,SIMA 2具备基于经验提升能力的自我改进结构,可以看作是通用AI研究的一个阶段。

DeepMind强调了“嵌入式代理(Embodied Agent)”的概念。嵌入式意味着“以具体形态实现”。嵌入式代理类似于机器人,在直接观察和行动中完成任务。而非嵌入式代理则在屏幕上进行如整理日程或管理备忘录的操作。研究团队解释说,嵌入式代理是通用AI研究的核心概念,必须在多种环境中完成任务。

DeepMind高级研究员Jane Wang表示,SIMA 2的变化并不限于简单的游戏操作能力。她解释说,SIMA 2设计用于理解现象并以常识性的方式处理用户请求的任务。

(来源=Google DeepMind)
(来源=Google DeepMind)

DeepMind通过演示公开了SIMA 2的行为方式。在游戏《无主之地》中,SIMA 2描述了周围环境并识别了遇难信号灯进而判断出行路径。研究团队解释说,“代理观察环境后自动决定下一步行动”。

SIMA 2不仅结合了语言信息,还结合了色彩和物体信息来进行推理。研究团队演示了“SIMA 2移动到番茄色的房子”这一指令,SIMA 2将番茄色与“红色”联系起来并选择了目标对象。研究团队表示,内部推理过程被设计得可直接显示。

SIMA 2还完成了基于表情符号的指令。Marino解释说,“输入斧子()和树木()等表情符号后,SIMA 2执行了砍树的行动”。

DeepMind表示,在由生成模型Genie创建的照片级虚拟世界中,SIMA 2识别并与长凳、树木和蝴蝶等物体进行互动。

与依赖于人类数据的SIMA 1不同,SIMA 2采用了自学习结构。据DeepMind介绍,SIMA 2在创建初期模型时使用了人类玩家的数据,然后在新环境中基于Gemini生成新的任务。奖励模型会评估行为,代理则通过学习相应的行为提高性能。

SIMA 2任务生成过程 (来源=Google DeepMind)
SIMA 2任务生成过程 (来源=Google DeepMind)

DeepMind解释说,通过这种方式,代理通过试错过程自主扩展行动能力。这一结构摆脱了人类必须直接提供所有数据的模式。

DeepMind高级研究工程师Frederic Vess表示,SIMA 2更接近于机器人任务中所需的高维判断和任务理解能力。他指出,为了机器人能移动到特定位置,必须先理解目标和空间信息的概念,而SIMA 2就是在处理这些领域。

DeepMind表示,SIMA 2在实际机器人系统中的应用时间尚未确定。DeepMind正在开发一个独立的机器人基础模型。DeepMind表示,SIMA 2预览版的发布目的是评估其可用性和合作潜力。

댓글 남기기