资讯预计阅读 3 分钟

Anthropic 发布 RSP 3.0:AI 安全政策迎来最大规模更新

Anthropic 发布负责任扩展政策第三版(RSP 3.0),引入更细粒度的能力评估体系、透明度提升措施,以及面向 ASL-4 级别模型的安全框架。

#Anthropic#AI安全#RSP#政策
Anthropic 发布 RSP 3.0:AI 安全政策迎来最大规模更新

Anthropic 发布其核心安全框架 RSP 的第三个版本,这是两年多来最大规模的政策更新。

什么是 RSP?

**RSP(Responsible Scaling Policy,负责任扩展政策)**是 Anthropic 用来应对 AI 灾难性风险的自愿框架。核心原则是「条件承诺」:如果模型超过某个能力阈值,就必须引入更严格的安全措施。

每套安全措施对应一个 AI 安全等级(ASL):ASL-2 是基础安全措施,ASL-3 更严格,ASL-4 则为更强大的未来模型准备。

RSP 3.0 的关键更新

1. 更精细的能力评估

旧版政策主要关注化学/生物武器和网络攻击两个领域。新版扩展了评估范围,增加了对自主 AI 行为、欺骗能力等新兴风险的系统性评估。

2. 提升透明度

Anthropic 承诺定期公开其安全评估结果和决策过程,让外部观察者能够更好地监督。这回应了此前对 RSP 缺乏可验证性的批评。

3. ASL-4 框架

首次为 ASL-4 级别(极高能力模型)制定了详细的安全标准,包括:

  • 对国家级攻击者的强力防护
  • 模型权重安全的更高要求
  • 部署前多轮外部审查

4. 反思与改进

Anthropic 坦率地评估了过去两年的经验:RSP 在推动内部安全投入方面效果显著,但在推动全行业采纳类似标准方面进展不如预期。

行业影响

RSP 是 AI 安全领域最具影响力的自愿框架之一。3.0 版的发布为整个行业设立了新的安全标杆:

  • 对模型能力进行系统性评估而非被动应对
  • 将安全措施与模型能力挂钩,避免「一刀切」
  • 为未来超强模型提前制定规则

编辑点评

RSP 3.0 最值得关注的不是具体条款,而是 Anthropic 的坦诚态度——他们公开承认了哪些策略奏效、哪些没达到预期。这种「公开复盘」在 AI 行业非常罕见,比任何具体政策更有价值。ASL-4 框架的制定也释放了一个信号:Anthropic 认为具有极高能力的模型已经不远了,需要提前准备。对整个行业来说,RSP 3.0 更像是一份邀请——邀请同行和监管者一起参与到这场关于 AI 安全的持续对话中。

原文链接: Responsible Scaling Policy Version 3.0


相关推荐