资讯预计阅读 3 分钟

Google DeepMind 发布 SIMA 2:在虚拟 3D 世界中推理、对话和学习的 AI Agent

Google DeepMind 发布 SIMA 2,整合 Gemini 模型的推理能力,从简单的指令执行者进化为能在 3D 游戏世界中推理、对话和自我改进的 AI 伙伴。

#Google DeepMind#SIMA#AI Agent#游戏AI#AGI
Google DeepMind 发布 SIMA 2:在虚拟 3D 世界中推理、对话和学习的 AI Agent

SIMA 2 整合 Gemini 推理能力,从指令执行者进化为能在 3D 世界中思考、对话和学习的 AI 伙伴。

从 SIMA 到 SIMA 2

2024 年,Google DeepMind 推出了 SIMA(Scalable Instructable Multiworld Agent)——一个能在多种虚拟环境中执行基本指令的通用 AI。SIMA 是 AI「用人类的方式操作软件」的重要第一步。

SIMA 2 则是质的飞跃。通过将 Gemini 模型作为核心引擎,SIMA 2 从单纯的「指令跟随者」进化为真正的「交互伙伴」。

三大核心突破

1. 推理能力

SIMA 2 不再只是执行「向左转」「打开地图」这样的简单指令。它能够:

  • 理解高层目标并自主规划达成步骤
  • 解释自己的行为——告诉你它打算做什么、为什么这么做
  • 处理抽象概念和逻辑推理

在测试中,与 SIMA 2 互动的体验「更像是与一个能推理的伙伴协作,而非发出命令」。

2. 泛化能力飞跃

得益于 Gemini 的加持,SIMA 2 在从未见过的游戏中表现显著提升。它能够理解更复杂、更微妙的指令,并在全新环境(如维京生存游戏 ASKA 和 Minecraft)中成功完成任务。

3. 自我改进

SIMA 2 能够从经验中学习,随时间提升自身表现。这意味着它不是一个静态系统,而是一个持续进化的 Agent。

技术架构

SIMA 2 的核心是以 Gemini 模型为推理引擎:

  • 视觉感知:通过「看」屏幕理解游戏环境
  • 语言理解:处理自然语言指令和对话
  • 动作执行:使用虚拟键盘和鼠标操作,无需访问底层游戏代码
  • 多模态输入:支持文本、图像甚至语音指令

训练数据结合了人类演示视频(带语言标注)和 Gemini 生成的标注。

为什么重要?

Google DeepMind 将 SIMA 2 视为「通向 AGI 的重要一步」,对机器人和 AI 具身智能有深远影响。虽然目前的应用场景是游戏,但底层能力——在复杂 3D 环境中推理、规划和执行——直接适用于:

  • 机器人操作
  • 工业自动化
  • 虚拟助手

编辑点评

SIMA 2 的真正突破不是「AI 打游戏打得更好了」,而是展示了 Gemini 大模型作为通用推理引擎被「嵌入」到具身 Agent 中的可能性。这种「大脑(LLM)+ 身体(交互界面)」的架构,可能成为未来 AI Agent 的标准范式。当 AI 能在复杂 3D 世界中推理和行动时,从游戏到现实世界的跨越只是时间问题。

原文链接: SIMA 2: An Agent that Plays, Reasons, and Learns With You


相关推荐