OpenAI 发布 GPT-5.4：融合推理、编码与 Computer Use 的最强前沿模型

OpenAI 发布 GPT-5.4——迄今最强大高效的前沿模型，融合推理、编码与 Agentic 工作流，首次支持原生 Computer Use。

GPT-5.4：面向专业工作的全能前沿模型

2026 年 3 月 5 日，OpenAI 正式发布 GPT-5.4，称其为"迄今最强大、最高效的前沿模型"，专为专业工作场景打造。GPT-5.4 已在 ChatGPT（以 GPT-5.4 Thinking 形式）、API 和 Codex 中全面上线。

核心亮点

GPT-5.4 将最新的推理（Reasoning）、编码（Coding）和智能体工作流（Agentic Workflows）整合到一个统一的前沿模型中。它继承了 GPT-5.3-Codex 行业领先的编码能力，同时大幅提升了模型在工具调用、软件环境以及电子表格、演示文稿、文档等专业任务中的表现。

原生 Computer Use 能力

在 Codex 和 API 中，GPT-5.4 是首个具备原生 Computer Use 能力的通用模型，可以操作计算机、使用 Playwright 控制浏览器和桌面应用程序，通过截屏来执行复杂的跨应用工作流。Tool Search 功能可将 Token 使用量降低高达 47%。

性能提升

单项声明错误率比 GPT-5.2 降低 33%
整体响应包含错误的概率降低 18%
在 GDPval 测试中（跨 44 个职业的知识工作评估），GPT-5.4 达到 83.0% 的匹配或超越行业专业人士的水平（GPT-5.2 为 70.9%）
支持最高 100 万 Token 的上下文窗口

GPT-5.4 在电子表格中的表现

前瞻规划与可引导性

GPT-5.4 Thinking 版本引入了前瞻规划（Upfront Planning）功能，用户可以在模型生成响应前查看其推理过程，并在对话中途进行调整，无需从头开始。

多模态增强

支持最高 1024 万像素的图像输入（"original" 模式）
在 MMMU-Pro 基准测试中达到 81.2%
OmniDocBench 错误率降至 0.109

定价

模型	输入	输出
GPT-5.4	$2.50/M tokens	$15/M tokens
GPT-5.4 Pro	$30/M tokens	$180/M tokens

缓存输入成本为标准费率的 10%。超过 272K Token 的请求价格翻倍。

可用性

GPT-5.4 Thinking 即日起向 ChatGPT Plus、Team 和 Pro 用户推出，替代 GPT-5.2 Thinking。GPT-5.2 Thinking 将在付费用户的模型选择器"Legacy Models"中保留三个月，于 2026 年 6 月 5 日正式退役。

编辑点评

GPT-5.4 的发布可以说是 OpenAI 近期最重要的产品动作。原生 Computer Use 能力的加入意味着 AI Agent 不再是概念验证，而是真正可以"操作电脑干活"的生产力工具。83% 的 GDPval 得分——超越行业专业人士——听起来很炸裂，但这个基准的可靠性和实际工作场景的差距仍需审慎看待。更值得关注的是定价策略：Pro 版本每百万 Token 输出 $180 的价格并不亲民，OpenAI 正在明确走高端专业路线。对竞争对手（尤其是 Anthropic 和 Google）来说，Computer Use 能力的竞赛已经正式进入下半场。

原文链接: Introducing GPT-5.4