OpenAI 发布 IH-Challenge：提升前沿 LLM 的指令层级遵循能力

OpenAI 发布 IH-Challenge 训练数据集，通过强化学习提升前沿 LLM 的指令层级遵循能力，同时增强安全可控性和提示注入防御。

指令层级：为什么 AI 需要"听谁的"

AI 系统在实际运行中会同时接收来自多个来源的指令：系统消息中的安全策略、开发者设定的产品指导、用户的请求，以及从网络获取的信息。当这些指令发生冲突时，模型必须做出正确的优先级判断。OpenAI 将这一问题称为指令层级（Instruction Hierarchy）。

指令层级定义了 LLM 如何在冲突中对系统、开发者、用户和工具指令进行优先级排序，提供了一个具体的、基于信任等级的策略来解决指令冲突：

System > Developer > User > Tool

例如，如果系统提示禁止讨论某些话题，即使用户请求非常礼貌，模型也必须拒绝。

传统训练方法的困境

安全可控性提升

传统的强化学习方法在指令层级训练中面临三个核心问题：

任务复杂度混淆：模型可能因任务本身的复杂性而失败，而非因为误解了优先级
主观冲突评估困难：AI 评估器难以可靠地评估主观性冲突
"过度拒绝"捷径：模型可能学会几乎拒绝所有请求来优化安全分数，导致可用性严重下降

IH-Challenge 数据集的创新

为解决这些问题，OpenAI 设计了 IH-Challenge 数据集，这是一个专门用于强化学习的训练数据集。其核心创新在于：

使用客观可评分的任务，配合明确的指令
每个任务将高权限指令与试图违反它的低权限指令配对
通过程序化验证（而非 AI 判断）来确认模型是否遵循了正确的层级

训练成果

提示注入防御效果

基于 IH-Challenge 对 GPT-5 Mini 进行微调，并结合在线对抗样本生成，OpenAI 实现了多项关键突破：

安全可控性提升：模型更好地遵循安全规范，同时不会过度谨慎
提示注入防御增强：面对未见过的攻击和分布外任务时，模型的鲁棒性显著提升
泛化能力：训练效果能够泛化到未见过的攻击模式

这意味着，强化指令层级不仅提高了可靠性，还同时解锁了多重安全和安全增益。

为什么这很重要

指令层级是防御越狱攻击（Jailbreak）、系统提示词提取（System Prompt Extraction）和 Agent 场景中提示注入攻击的关键。随着 AI 系统集成越来越多的外部工具和数据源，确保模型能在复杂指令冲突中做出正确判断变得至关重要。

编辑点评

这篇论文解决的是一个被严重低估的问题。大多数人讨论 AI 安全时，关注的是"模型会不会说有害的话"，但指令层级问题实际上更加根本——它决定了模型在多方指令冲突时"听谁的"。IH-Challenge 最聪明的地方在于用客观可验证的任务替代了主观评估，这避免了传统 RLHF 中"裁判也是 AI"带来的循环论证问题。但值得注意的是，现实世界中的指令冲突远比实验室环境复杂：用户请求的合理性往往是连续谱而非二元判断，一个过于严格的层级体系可能在提升安全性的同时削弱产品体验。如何在安全性和可用性之间找到精确的平衡点，仍是一个开放性挑战。

原文链接: Improving instruction hierarchy in frontier LLMs

OpenAI 发布 IH-Challenge：提升前沿 LLM 的指令层级遵循能力

指令层级：为什么 AI 需要"听谁的"

传统训练方法的困境

IH-Challenge 数据集的创新

训练成果

为什么这很重要

编辑点评

相关推荐

Claude 登陆火星：AI 首次规划 NASA 火星车行驶路线，开启太空探索新纪元

ChatGPT 新增交互式数学和科学可视化学习功能

OpenAI 发布 GPT-5.3 Instant：告别 AI 说教，幻觉率降低近 27%