OpenAI 研究：推理模型难以控制思维链——这对 AI 安全是好消息

OpenAI 研究发现，推理模型难以控制自身的思维链——而这恰恰是安全的好消息。

推理模型难以控制思维链，这对 AI 安全是个好消息

2026 年 3 月 5 日，OpenAI 发布了一项重要安全研究论文，引入了 CoT-Control——一套开源评估框架，用于衡量推理模型操控自身思考过程的能力。核心结论令人意外且振奋：当前前沿推理模型几乎无法可靠地操控自己的思维链（Chain of Thought，CoT）。

什么是 CoT 可控性？

CoT 可控性（CoT Controllability）是指推理模型以降低可监控性的方式控制其思维链特征的能力。简单来说，就是模型能否"隐藏"或"伪装"其真实的推理过程。

13 个模型的评估结果

OpenAI 对 13 个推理模型进行了评估，涵盖超过 13,000 个任务，这些任务基于 GPQA、MMLU-Pro、HLE、BFCL 和 SWE-Bench Verified 等成熟基准构建。

测试要求模型执行基本的可控性任务，例如避免使用特定关键词、仅使用小写字母或在末尾添加特定短语。结果表明：

所有模型的可控性得分仅在 0.1% 至 15.4% 之间
Claude Sonnet 4.5 仅能在 2.7% 的情况下控制其 CoT，而最终输出的可控性为 61.9%
GPT-5.2 Thinking 经常在推理过程中"意识到"自己违反了指令，但仍然无法自我纠正

一个典型的例子是：模型在被禁止使用某个词后，一边表达对之前违规的担忧，一边又额外使用了该禁用词四次。

反直觉的发现

虽然更大的模型显示出略微更好的可控性，但这种优势在两种情况下消失了：

模型获得更多推理时间时
模型经过额外的强化学习（RL）训练后

OLMo-3-7B-RL-Zero-Math 模型在 RL 训练过程中，可控性得分下降了十倍。

安全意义

这项研究的核心论点是："低 CoT 可控性是特性，而非缺陷"（a feature, not a bug）。可控性越低，意味着可监控性越高——模型越难隐藏其推理过程，安全团队就越容易监控 AI 系统是否存在不对齐行为。

未来计划

OpenAI 宣布，从 GPT-5.4 Thinking 开始，将在系统卡（System Card）中同时报告 CoT 可控性和可监控性指标，同时避免对推理链施加直接的优化压力。

编辑点评

这是一篇非常巧妙的安全研究。OpenAI 本质上在说：推理模型"不会撒谎"——至少在思维链层面，它们缺乏隐藏真实意图的能力。这对 AI 对齐和安全监控来说确实是好消息。但我们需要保持警惕：当前模型做不到不代表未来模型也做不到。随着模型能力的持续提升，CoT 可控性可能会成为一场"攻防博弈"。OpenAI 选择公开这项研究并开源评估工具，既是在建立行业信任，也是在对竞争对手施加压力——你们的模型也应该接受同样的审视。这种以透明度换取信任的策略值得肯定。

原文链接: Reasoning models struggle to control their chains of thought, and that's good

OpenAI 研究：推理模型难以控制思维链——这对 AI 安全是好消息

推理模型难以控制思维链，这对 AI 安全是个好消息

什么是 CoT 可控性？

13 个模型的评估结果

反直觉的发现

安全意义

未来计划

编辑点评

相关推荐

Claude 登陆火星：AI 首次规划 NASA 火星车行驶路线，开启太空探索新纪元

ChatGPT 新增交互式数学和科学可视化学习功能

OpenAI 发布 GPT-5.3 Instant：告别 AI 说教，幻觉率降低近 27%