OpenAI GPT-5.4「原生操控电脑」实测封神：OpenClaw 天选模型来了

本文最后更新于93 天前，其中的信息可能已经过时，如有错误请发送邮件到meiyitou@gmail.com

原生操控电脑，真正的 Agent 分水岭

Agent 能力，是 2026 年 AI 进化的主线任务。过去的模型更多停留在“生成内容”“回答问题”层面，而 GPT-5.4 直接进入了“执行任务”的阶段。它不仅能理解指令，更能真正操控电脑环境。

只要是打工人日常在电脑上能做的事情，它几乎都能完成。这已经不是简单的“聊天机器人”，而是一个具备完整操作链条的数字执行者。

Web 版 + Codex 同步上线，Windows 用户也能用

目前 GPT-5.4 已经在网页版以及 OpenAI Codex 中上线。

昨晚 OpenAI 也同步推出了 Windows 版本的 Codex 客户端，这对 Windows 用户来说意义重大。

https://cdn.thenewstack.io/media/2026/02/20c44d85-codex-dark-scaled.png

Codex Windows 版下载：【点击前往】或【打包下载】

这意味着，即使你不部署复杂环境，也可以直接通过 Codex 客户端体验 GPT-5.4 的电脑操控能力。

为什么说 GPT-5.4 是 OpenClaw 的“天选模型”

我们都知道，OpenClaw 这只“龙虾”之所以爆火，核心就在于它强大的 Agent 能力。在 Mac mini 上部署的 OpenClaw，几乎拥有与人类一致的操作权限和执行路径。而 GPT-5.4 这一次，是在模型层面就实现了原生电脑操控能力。

也就是说，它不再是“外挂式控制”，而是“内生式理解 + 执行”。两者结合，几乎是 2026 年 Agent 形态的最优解。

完整的 OpenClaw + GPT-5.4 部署与实测流程：

1、安装并升级到最新版的 OpenClaw，一键安装命令如下：

iwr -useb https://openclaw.ai/install.ps1 | iex

模型的服务提供商选择OpenAI

模型登入方式选择OpenAI API key

创建 OpenAI API key：【点击前往】

然后在命令输入框输入密钥确认

在选择模型的时候，请选择GPT-5.3 codex，因为目前OpenClaw还没内置到GPT-5.4模型，但是一会我们可以通过命令进行切换过去。

切换模型需要重新开一个新的power shell窗口，并输入第1个切换模型的命令：

openclaw onboard –auth-choice openai-codex

执行命令以后，在配置选项里Config handling 选择 Update values：

确认以后会自动弹窗登入窗口，只需输入你的openAI账号登入即可

登入以后，再开一个新的power shell窗口，执行第2个切换模型的命令：

openclaw config set agents.defaults.model.primary “openai-codex/gpt-5.4”

就可以把当前Openclaw的默认使用模型切换到GPT-5.4上去了

注意：由于通过网页端授权登入的方式，只有Plus、Pro及以上的会员才可以调用GPT-5.4模型，所以要确保你当前登入的OpenAI账号是开通会员的才可以，否则会提示你找不到模型！

Mac 电脑

将 OpenClaw 默认模型切换到 GPT-5.4 的命令：

openclaw onboard–auth-choiceopenai-codex

执行命令后登入OpenAI账号

授权登入以后再开新的命令窗口执行下方命令：

openclaw configsetagents.defaults.model.primary“openai-codex/gpt-5.4”

重启 OpenClaw 后，问它“你是什么模型”，就会回复gpt-5.4：

当然如果你不想开通会员，也想使用最新的GPT-5.4模型，那么你可以通过刚才说的Open Codex 客户端进行安装使用！亲测即使是免费账户，登入以后照样可以使用GPT-5.4模型

核心能力全面升级：

这次升级，不只是“能操作电脑”这么简单。不仅会操作，还更聪明

知识型工作能力提升

在 GDPval 测试中（覆盖 44 个职业的知识工作能力评估），GPT-5.4 在 83% 的案例中达到持平或更优水平，而 GPT-5.2 为 71%。

在投行级电子表格建模内部测试中：

GPT-5.4：87.5%
GPT-5.2：68.4%

在演示文稿评测中，人工评分者在 68% 情况下更偏好 GPT-5.4 生成的作品，原因是：

更好的审美
更丰富的视觉元素
更有效的图像生成配合

对于内容创作者、分析师、咨询顾问来说，这是生产力的实质跃迁。

浏览器与网页操控能力

在 WebArena-Verified 测试中：

GPT-5.4 成功率 67.3%
GPT-5.2 为 65.4%

同时使用的token数量也大幅减少

在 Online-Mind2Web 测试中，仅凭截图观察成功率达到 92.8%，明显领先早期系统。

这意味着它在真实网页环境中的操作稳定性进一步提升。

视觉理解能力强化

在 MMMU-Pro 测试中，无需外部工具即可达到 81.2% 成功率。

在 OmniDocBench 文档解析测试中，平均误差下降至 0.109。

这就是它“原生操控电脑”能力的底层支撑——更强的视觉理解与结构解析能力。

编程与长任务执行

GPT-5.4 融合了 GPT-5.3-Codex 的编程能力，同时强化了长时间自主执行任务的能力。

在 SWE-Bench Pro 测试中，与 GPT-5.3-Codex 持平或更强，同时整体推理延迟更低。

它可以：

自己调用工具
多轮迭代优化
减少人工干预

这已经是半自动工程师级别的能力。

工具调用与多步任务

在 Toolathlon 测试中，它用更少轮次完成复杂真实任务，比如：

读取邮件
处理附件
评分
记录到表格

准确率更高，执行更稳定。

联网搜索能力

在 BrowseComp 测试中，GPT-5.4 相比 5.2 提升 17 个百分点。

GPT-5.4 Pro 更是达到 89.3%。

这意味着它在海量信息检索、多轮搜索整合方面的能力显著增强。

可控性：真正的“Thinking”升级

GPT-5.4 Thinking 在处理复杂任务时会先给出“前言”说明思路，并支持在生成过程中实时追加指令。

这对高阶用户来说意义巨大。

智能体工具调用

GPT‑5.4 同样优化了工具调用能力，使其在推理过程中能更准确、更高效地判断调用工具的时机与方式，这在 API 环境下尤为突出。相比 GPT‑5.2，它在 Toolathlon 基准测试中能以更少的轮次达到更高的准确率。该测试旨在评估 AI 智能体利用真实世界工具和 API 完成多步任务的能力 — 例如，智能体需要读取邮件、提取作业附件、上传并评分，最后将结果记录到电子表格中。

你可以在任务进行中微调方向，而不需要推倒重来。

在长流程任务中，它对上下文记忆更加稳定，推理更深入。

这才是 Agent 真正可控、可用、可扩展的关键。

最后总结：打工人真的悬了？

实测之后，我只有一个感受：

这不是一次小升级，而是一次形态级进化。

GPT-5.4 让“原生操控电脑”从概念走向现实。
它不再只是一个聊天模型，而是一个可以真正执行工作的智能体核心。

当它与 OpenClaw 这样的 Agent 框架结合，2026 年的工作方式，很可能会被重新定义。