OpenAI 研究发现,推理模型难以控制自身的思维链——而这恰恰是安全的好消息。
推理模型难以控制思维链,这对 AI 安全是个好消息
2026 年 3 月 5 日,OpenAI 发布了一项重要安全研究论文,引入了 CoT-Control——一套开源评估框架,用于衡量推理模型操控自身思考过程的能力。核心结论令人意外且振奋:当前前沿推理模型几乎无法可靠地操控自己的思维链(Chain of Thought,CoT)。
什么是 CoT 可控性?
CoT 可控性(CoT Controllability)是指推理模型以降低可监控性的方式控制其思维链特征的能力。简单来说,就是模型能否"隐藏"或"伪装"其真实的推理过程。
13 个模型的评估结果
OpenAI 对 13 个推理模型进行了评估,涵盖超过 13,000 个任务,这些任务基于 GPQA、MMLU-Pro、HLE、BFCL 和 SWE-Bench Verified 等成熟基准构建。
测试要求模型执行基本的可控性任务,例如避免使用特定关键词、仅使用小写字母或在末尾添加特定短语。结果表明:
- 所有模型的可控性得分仅在 0.1% 至 15.4% 之间
- Claude Sonnet 4.5 仅能在 2.7% 的情况下控制其 CoT,而最终输出的可控性为 61.9%
- GPT-5.2 Thinking 经常在推理过程中"意识到"自己违反了指令,但仍然无法自我纠正
一个典型的例子是:模型在被禁止使用某个词后,一边表达对之前违规的担忧,一边又额外使用了该禁用词四次。
反直觉的发现
虽然更大的模型显示出略微更好的可控性,但这种优势在两种情况下消失了:
- 模型获得更多推理时间时
- 模型经过额外的强化学习(RL)训练后
OLMo-3-7B-RL-Zero-Math 模型在 RL 训练过程中,可控性得分下降了十倍。
安全意义
这项研究的核心论点是:"低 CoT 可控性是特性,而非缺陷"(a feature, not a bug)。可控性越低,意味着可监控性越高——模型越难隐藏其推理过程,安全团队就越容易监控 AI 系统是否存在不对齐行为。
未来计划
OpenAI 宣布,从 GPT-5.4 Thinking 开始,将在系统卡(System Card)中同时报告 CoT 可控性和可监控性指标,同时避免对推理链施加直接的优化压力。
编辑点评
这是一篇非常巧妙的安全研究。OpenAI 本质上在说:推理模型"不会撒谎"——至少在思维链层面,它们缺乏隐藏真实意图的能力。这对 AI 对齐和安全监控来说确实是好消息。但我们需要保持警惕:当前模型做不到不代表未来模型也做不到。随着模型能力的持续提升,CoT 可控性可能会成为一场"攻防博弈"。OpenAI 选择公开这项研究并开源评估工具,既是在建立行业信任,也是在对竞争对手施加压力——你们的模型也应该接受同样的审视。这种以透明度换取信任的策略值得肯定。
原文链接: Reasoning models struggle to control their chains of thought, and that's good



