Google DeepMind 发布 SIMA 2：在虚拟 3D 世界中推理、对话和学习的 AI Agent

SIMA 2 整合 Gemini 推理能力，从指令执行者进化为能在 3D 世界中思考、对话和学习的 AI 伙伴。

从 SIMA 到 SIMA 2

2024 年，Google DeepMind 推出了 SIMA（Scalable Instructable Multiworld Agent）——一个能在多种虚拟环境中执行基本指令的通用 AI。SIMA 是 AI「用人类的方式操作软件」的重要第一步。

SIMA 2 则是质的飞跃。通过将 Gemini 模型作为核心引擎，SIMA 2 从单纯的「指令跟随者」进化为真正的「交互伙伴」。

三大核心突破

1. 推理能力

SIMA 2 不再只是执行「向左转」「打开地图」这样的简单指令。它能够：

理解高层目标并自主规划达成步骤
解释自己的行为——告诉你它打算做什么、为什么这么做
处理抽象概念和逻辑推理

在测试中，与 SIMA 2 互动的体验「更像是与一个能推理的伙伴协作，而非发出命令」。

2. 泛化能力飞跃

得益于 Gemini 的加持，SIMA 2 在从未见过的游戏中表现显著提升。它能够理解更复杂、更微妙的指令，并在全新环境（如维京生存游戏 ASKA 和 Minecraft）中成功完成任务。

3. 自我改进

SIMA 2 能够从经验中学习，随时间提升自身表现。这意味着它不是一个静态系统，而是一个持续进化的 Agent。

技术架构

SIMA 2 的核心是以 Gemini 模型为推理引擎：

视觉感知：通过「看」屏幕理解游戏环境
语言理解：处理自然语言指令和对话
动作执行：使用虚拟键盘和鼠标操作，无需访问底层游戏代码
多模态输入：支持文本、图像甚至语音指令

训练数据结合了人类演示视频（带语言标注）和 Gemini 生成的标注。

为什么重要？

Google DeepMind 将 SIMA 2 视为「通向 AGI 的重要一步」，对机器人和 AI 具身智能有深远影响。虽然目前的应用场景是游戏，但底层能力——在复杂 3D 环境中推理、规划和执行——直接适用于：

机器人操作
工业自动化
虚拟助手

编辑点评

SIMA 2 的真正突破不是「AI 打游戏打得更好了」，而是展示了 Gemini 大模型作为通用推理引擎被「嵌入」到具身 Agent 中的可能性。这种「大脑（LLM）+ 身体（交互界面）」的架构，可能成为未来 AI Agent 的标准范式。当 AI 能在复杂 3D 世界中推理和行动时，从游戏到现实世界的跨越只是时间问题。

原文链接: SIMA 2: An Agent that Plays, Reasons, and Learns With You