评测预计阅读 4 分钟

OpenAI 发布 GPT-5.4:融合推理、编码与 Computer Use 的最强前沿模型

#OpenAI#GPT-5.4#模型发布
OpenAI 发布 GPT-5.4:融合推理、编码与 Computer Use 的最强前沿模型

OpenAI 发布 GPT-5.4——迄今最强大高效的前沿模型,融合推理、编码与 Agentic 工作流,首次支持原生 Computer Use。

GPT-5.4:面向专业工作的全能前沿模型

2026 年 3 月 5 日,OpenAI 正式发布 GPT-5.4,称其为"迄今最强大、最高效的前沿模型",专为专业工作场景打造。GPT-5.4 已在 ChatGPT(以 GPT-5.4 Thinking 形式)、API 和 Codex 中全面上线。

核心亮点

GPT-5.4 将最新的推理(Reasoning)、编码(Coding)和智能体工作流(Agentic Workflows)整合到一个统一的前沿模型中。它继承了 GPT-5.3-Codex 行业领先的编码能力,同时大幅提升了模型在工具调用、软件环境以及电子表格、演示文稿、文档等专业任务中的表现。

原生 Computer Use 能力

在 Codex 和 API 中,GPT-5.4 是首个具备原生 Computer Use 能力的通用模型,可以操作计算机、使用 Playwright 控制浏览器和桌面应用程序,通过截屏来执行复杂的跨应用工作流。Tool Search 功能可将 Token 使用量降低高达 47%

性能提升

  • 单项声明错误率比 GPT-5.2 降低 33%
  • 整体响应包含错误的概率降低 18%
  • 在 GDPval 测试中(跨 44 个职业的知识工作评估),GPT-5.4 达到 83.0% 的匹配或超越行业专业人士的水平(GPT-5.2 为 70.9%)
  • 支持最高 100 万 Token 的上下文窗口

GPT-5.4 在电子表格中的表现

前瞻规划与可引导性

GPT-5.4 Thinking 版本引入了前瞻规划(Upfront Planning)功能,用户可以在模型生成响应前查看其推理过程,并在对话中途进行调整,无需从头开始。

多模态增强

  • 支持最高 1024 万像素的图像输入("original" 模式)
  • 在 MMMU-Pro 基准测试中达到 81.2%
  • OmniDocBench 错误率降至 0.109

定价

模型 输入 输出
GPT-5.4 $2.50/M tokens $15/M tokens
GPT-5.4 Pro $30/M tokens $180/M tokens

缓存输入成本为标准费率的 10%。超过 272K Token 的请求价格翻倍。

可用性

GPT-5.4 Thinking 即日起向 ChatGPT Plus、Team 和 Pro 用户推出,替代 GPT-5.2 Thinking。GPT-5.2 Thinking 将在付费用户的模型选择器"Legacy Models"中保留三个月,于 2026 年 6 月 5 日正式退役。

编辑点评

GPT-5.4 的发布可以说是 OpenAI 近期最重要的产品动作。原生 Computer Use 能力的加入意味着 AI Agent 不再是概念验证,而是真正可以"操作电脑干活"的生产力工具。83% 的 GDPval 得分——超越行业专业人士——听起来很炸裂,但这个基准的可靠性和实际工作场景的差距仍需审慎看待。更值得关注的是定价策略:Pro 版本每百万 Token 输出 $180 的价格并不亲民,OpenAI 正在明确走高端专业路线。对竞争对手(尤其是 Anthropic 和 Google)来说,Computer Use 能力的竞赛已经正式进入下半场。

原文链接: Introducing GPT-5.4


相关推荐