Anthropic 发布 RSP 3.0：AI 安全政策迎来最大规模更新

Anthropic 发布其核心安全框架 RSP 的第三个版本，这是两年多来最大规模的政策更新。

什么是 RSP？

**RSP（Responsible Scaling Policy，负责任扩展政策）**是 Anthropic 用来应对 AI 灾难性风险的自愿框架。核心原则是「条件承诺」：如果模型超过某个能力阈值，就必须引入更严格的安全措施。

每套安全措施对应一个 AI 安全等级（ASL）：ASL-2 是基础安全措施，ASL-3 更严格，ASL-4 则为更强大的未来模型准备。

RSP 3.0 的关键更新

1. 更精细的能力评估

旧版政策主要关注化学/生物武器和网络攻击两个领域。新版扩展了评估范围，增加了对自主 AI 行为、欺骗能力等新兴风险的系统性评估。

2. 提升透明度

Anthropic 承诺定期公开其安全评估结果和决策过程，让外部观察者能够更好地监督。这回应了此前对 RSP 缺乏可验证性的批评。

3. ASL-4 框架

首次为 ASL-4 级别（极高能力模型）制定了详细的安全标准，包括：

对国家级攻击者的强力防护
模型权重安全的更高要求
部署前多轮外部审查

4. 反思与改进

Anthropic 坦率地评估了过去两年的经验：RSP 在推动内部安全投入方面效果显著，但在推动全行业采纳类似标准方面进展不如预期。

行业影响

RSP 是 AI 安全领域最具影响力的自愿框架之一。3.0 版的发布为整个行业设立了新的安全标杆：

对模型能力进行系统性评估而非被动应对
将安全措施与模型能力挂钩，避免「一刀切」
为未来超强模型提前制定规则

编辑点评

RSP 3.0 最值得关注的不是具体条款，而是 Anthropic 的坦诚态度——他们公开承认了哪些策略奏效、哪些没达到预期。这种「公开复盘」在 AI 行业非常罕见，比任何具体政策更有价值。ASL-4 框架的制定也释放了一个信号：Anthropic 认为具有极高能力的模型已经不远了，需要提前准备。对整个行业来说，RSP 3.0 更像是一份邀请——邀请同行和监管者一起参与到这场关于 AI 安全的持续对话中。

原文链接: Responsible Scaling Policy Version 3.0