OpenAI 发布 IH-Challenge 训练数据集,通过强化学习提升前沿 LLM 的指令层级遵循能力,同时增强安全可控性和提示注入防御。
指令层级:为什么 AI 需要"听谁的"
AI 系统在实际运行中会同时接收来自多个来源的指令:系统消息中的安全策略、开发者设定的产品指导、用户的请求,以及从网络获取的信息。当这些指令发生冲突时,模型必须做出正确的优先级判断。OpenAI 将这一问题称为指令层级(Instruction Hierarchy)。
指令层级定义了 LLM 如何在冲突中对系统、开发者、用户和工具指令进行优先级排序,提供了一个具体的、基于信任等级的策略来解决指令冲突:
System > Developer > User > Tool
例如,如果系统提示禁止讨论某些话题,即使用户请求非常礼貌,模型也必须拒绝。
传统训练方法的困境

传统的强化学习方法在指令层级训练中面临三个核心问题:
- 任务复杂度混淆:模型可能因任务本身的复杂性而失败,而非因为误解了优先级
- 主观冲突评估困难:AI 评估器难以可靠地评估主观性冲突
- "过度拒绝"捷径:模型可能学会几乎拒绝所有请求来优化安全分数,导致可用性严重下降
IH-Challenge 数据集的创新
为解决这些问题,OpenAI 设计了 IH-Challenge 数据集,这是一个专门用于强化学习的训练数据集。其核心创新在于:
- 使用客观可评分的任务,配合明确的指令
- 每个任务将高权限指令与试图违反它的低权限指令配对
- 通过程序化验证(而非 AI 判断)来确认模型是否遵循了正确的层级
训练成果

基于 IH-Challenge 对 GPT-5 Mini 进行微调,并结合在线对抗样本生成,OpenAI 实现了多项关键突破:
- 安全可控性提升:模型更好地遵循安全规范,同时不会过度谨慎
- 提示注入防御增强:面对未见过的攻击和分布外任务时,模型的鲁棒性显著提升
- 泛化能力:训练效果能够泛化到未见过的攻击模式
这意味着,强化指令层级不仅提高了可靠性,还同时解锁了多重安全和安全增益。
为什么这很重要
指令层级是防御越狱攻击(Jailbreak)、系统提示词提取(System Prompt Extraction)和 Agent 场景中提示注入攻击的关键。随着 AI 系统集成越来越多的外部工具和数据源,确保模型能在复杂指令冲突中做出正确判断变得至关重要。
编辑点评
这篇论文解决的是一个被严重低估的问题。大多数人讨论 AI 安全时,关注的是"模型会不会说有害的话",但指令层级问题实际上更加根本——它决定了模型在多方指令冲突时"听谁的"。IH-Challenge 最聪明的地方在于用客观可验证的任务替代了主观评估,这避免了传统 RLHF 中"裁判也是 AI"带来的循环论证问题。但值得注意的是,现实世界中的指令冲突远比实验室环境复杂:用户请求的合理性往往是连续谱而非二元判断,一个过于严格的层级体系可能在提升安全性的同时削弱产品体验。如何在安全性和可用性之间找到精确的平衡点,仍是一个开放性挑战。



