SIMA 2 整合 Gemini 推理能力,从指令执行者进化为能在 3D 世界中思考、对话和学习的 AI 伙伴。
从 SIMA 到 SIMA 2
2024 年,Google DeepMind 推出了 SIMA(Scalable Instructable Multiworld Agent)——一个能在多种虚拟环境中执行基本指令的通用 AI。SIMA 是 AI「用人类的方式操作软件」的重要第一步。
SIMA 2 则是质的飞跃。通过将 Gemini 模型作为核心引擎,SIMA 2 从单纯的「指令跟随者」进化为真正的「交互伙伴」。
三大核心突破
1. 推理能力
SIMA 2 不再只是执行「向左转」「打开地图」这样的简单指令。它能够:
- 理解高层目标并自主规划达成步骤
- 解释自己的行为——告诉你它打算做什么、为什么这么做
- 处理抽象概念和逻辑推理
在测试中,与 SIMA 2 互动的体验「更像是与一个能推理的伙伴协作,而非发出命令」。
2. 泛化能力飞跃
得益于 Gemini 的加持,SIMA 2 在从未见过的游戏中表现显著提升。它能够理解更复杂、更微妙的指令,并在全新环境(如维京生存游戏 ASKA 和 Minecraft)中成功完成任务。
3. 自我改进
SIMA 2 能够从经验中学习,随时间提升自身表现。这意味着它不是一个静态系统,而是一个持续进化的 Agent。
技术架构
SIMA 2 的核心是以 Gemini 模型为推理引擎:
- 视觉感知:通过「看」屏幕理解游戏环境
- 语言理解:处理自然语言指令和对话
- 动作执行:使用虚拟键盘和鼠标操作,无需访问底层游戏代码
- 多模态输入:支持文本、图像甚至语音指令
训练数据结合了人类演示视频(带语言标注)和 Gemini 生成的标注。
为什么重要?
Google DeepMind 将 SIMA 2 视为「通向 AGI 的重要一步」,对机器人和 AI 具身智能有深远影响。虽然目前的应用场景是游戏,但底层能力——在复杂 3D 环境中推理、规划和执行——直接适用于:
- 机器人操作
- 工业自动化
- 虚拟助手
编辑点评
SIMA 2 的真正突破不是「AI 打游戏打得更好了」,而是展示了 Gemini 大模型作为通用推理引擎被「嵌入」到具身 Agent 中的可能性。这种「大脑(LLM)+ 身体(交互界面)」的架构,可能成为未来 AI Agent 的标准范式。当 AI 能在复杂 3D 世界中推理和行动时,从游戏到现实世界的跨越只是时间问题。
原文链接: SIMA 2: An Agent that Plays, Reasons, and Learns With You