评测预计阅读 4 分钟

OpenAI 发布 IH-Challenge:提升前沿 LLM 的指令层级遵循能力

#OpenAI#LLM研究#指令层级
OpenAI 发布 IH-Challenge:提升前沿 LLM 的指令层级遵循能力

OpenAI 发布 IH-Challenge 训练数据集,通过强化学习提升前沿 LLM 的指令层级遵循能力,同时增强安全可控性和提示注入防御。

指令层级:为什么 AI 需要"听谁的"

AI 系统在实际运行中会同时接收来自多个来源的指令:系统消息中的安全策略、开发者设定的产品指导、用户的请求,以及从网络获取的信息。当这些指令发生冲突时,模型必须做出正确的优先级判断。OpenAI 将这一问题称为指令层级(Instruction Hierarchy)

指令层级定义了 LLM 如何在冲突中对系统、开发者、用户和工具指令进行优先级排序,提供了一个具体的、基于信任等级的策略来解决指令冲突:

System > Developer > User > Tool

例如,如果系统提示禁止讨论某些话题,即使用户请求非常礼貌,模型也必须拒绝。

传统训练方法的困境

安全可控性提升

传统的强化学习方法在指令层级训练中面临三个核心问题:

  1. 任务复杂度混淆:模型可能因任务本身的复杂性而失败,而非因为误解了优先级
  2. 主观冲突评估困难:AI 评估器难以可靠地评估主观性冲突
  3. "过度拒绝"捷径:模型可能学会几乎拒绝所有请求来优化安全分数,导致可用性严重下降

IH-Challenge 数据集的创新

为解决这些问题,OpenAI 设计了 IH-Challenge 数据集,这是一个专门用于强化学习的训练数据集。其核心创新在于:

  • 使用客观可评分的任务,配合明确的指令
  • 每个任务将高权限指令与试图违反它的低权限指令配对
  • 通过程序化验证(而非 AI 判断)来确认模型是否遵循了正确的层级

训练成果

提示注入防御效果

基于 IH-Challenge 对 GPT-5 Mini 进行微调,并结合在线对抗样本生成,OpenAI 实现了多项关键突破:

  • 安全可控性提升:模型更好地遵循安全规范,同时不会过度谨慎
  • 提示注入防御增强:面对未见过的攻击和分布外任务时,模型的鲁棒性显著提升
  • 泛化能力:训练效果能够泛化到未见过的攻击模式

这意味着,强化指令层级不仅提高了可靠性,还同时解锁了多重安全和安全增益。

为什么这很重要

指令层级是防御越狱攻击(Jailbreak)、系统提示词提取(System Prompt Extraction)和 Agent 场景中提示注入攻击的关键。随着 AI 系统集成越来越多的外部工具和数据源,确保模型能在复杂指令冲突中做出正确判断变得至关重要。

编辑点评

这篇论文解决的是一个被严重低估的问题。大多数人讨论 AI 安全时,关注的是"模型会不会说有害的话",但指令层级问题实际上更加根本——它决定了模型在多方指令冲突时"听谁的"。IH-Challenge 最聪明的地方在于用客观可验证的任务替代了主观评估,这避免了传统 RLHF 中"裁判也是 AI"带来的循环论证问题。但值得注意的是,现实世界中的指令冲突远比实验室环境复杂:用户请求的合理性往往是连续谱而非二元判断,一个过于严格的层级体系可能在提升安全性的同时削弱产品体验。如何在安全性和可用性之间找到精确的平衡点,仍是一个开放性挑战。

原文链接: Improving instruction hierarchy in frontier LLMs


相关推荐