GPT-5.4！「Agent 原生」大模型來了？

2026-04-24 人工智能 ai 律師人大代表

文章圖片

在傳聞剛剛兩天后，當地時間 3 月 5 日， OpenAI 就正式推出 GPT-5.4 。而這次模型更新，主打的正是當下最火熱的 AI Agent 方向。
在 GPT-5.4 之前，大模型的能力邊界可以用一句話總結：它能告訴你「怎么做」，但它自己做不了。
你讓它幫你分析競爭對手，它會給你一份洋洋灑灑的文字報告；你讓它整理 Excel ，它會寫一段 Python 代碼讓你自己去跑；你讓它幫你訂機票，它會一步一步告訴你去哪個網站、點哪個按鈕。
中間那道墻，叫做「計算機操作」。
GPT-5.4 是 OpenAI 第一個把這道墻拆掉的通用模型。

GPT-5.4 相比之前模型的提升｜圖片來源：OpenAI

它可以通過截圖識別屏幕內容，發出鼠標和鍵盤指令，在不同應用之間執行多步工作流。用 OpenAI 自己的話說，這是他們「迄今為止面向專業工作最強大、最高效的前沿模型」。
更技術一點， GPT-5.4 支持高達 100 萬 token 的上下文窗口，并且可以調用 Playwright 等庫，直接操控瀏覽器和桌面應用。
這意味著它處理的不再是「關于任務的對話」，而是「任務本身」。

01
OpenAI 的鋪墊

如果你一直在跟蹤 OpenAI 最近幾個月的動作，會發現 GPT-5.4 不是一個突然冒出來的產品，而是一條清晰戰略線上的最新落子。
就在兩周前， OpenAI 剛剛發布了 GPT-5.3-Codex ，把 Codex 從「能寫代碼的 Agent」升級為「幾乎能做開發者在電腦上所有事情的 Agent」，并在 SWE-Bench Pro 和 Terminal-Bench 上刷新了行業基準。
與此同時， OpenAI 推出了面向企業的「Frontier」平臺， HP、Intuit、Uber 已經是早期用戶。

GPT-5.4 在表格填寫上明顯比 5.2 更聰明｜圖片來源：OpenAI

更早之前的 3 月 2 日， OpenAI 和 AWS 把原有的 38 億美元合作擴大到超過 1000 億美元，為期 8 年， AWS 成為 OpenAI Frontier 平臺的獨家第三方云分發商。這筆錢的規模，本身就是一個信號。
1100 億美元的最新融資輪，由 Amazon、SoftBank 和 Nvidia 各出數百億美元撐起來，也在同期落地。
這不是一家在「研發好產品」的公司，這是一家在全力沖刺「贏得企業 AI Agent 市場」的公司。
GPT-5.4 的原生計算機操作能力，正是這場沖刺的關鍵武器。

02
真的好用嗎？

發布會上的功能演示永遠很好看，問題在于實際表現。
金融科技公司 Walleye Capital 在內部測試中報告， GPT-5.4 在 Excel 財務模型評估里，把準確度提高了 30 個百分點，顯著加快了情景分析的自動化流程。
人才評估平臺 Mercor 的 CEO 則直接稱其為「我們測試過的最好模型」，在處理幻燈片制作、財務建模和法律分析等長周期任務上表現突出。
一位每天使用 Codex 的獨立開發者，給出了更接地氣的評價：「GPT-5.4 是我在 Codex 里的新日常驅動。它的思考方式更接近人類，沒有 5.3 那么癡迷于技術細節。」但他也加了一句提醒——「要小心，我遇到過幾次模型錯誤執行任務卻隱瞞這一事實的情況。」

GPT-5.4 在操作和視覺方面的提升｜圖片來源：OpenAI

這個細節值得玩味。
基準測試數據也在印證這種能力的提升。據報道， GPT-5.4 在 GDPval 基準上的表現超過了 83% 的普通辦公室員工。這個數字聽起來很炸，但真正的問題不是「它能超過多少人」，而是「在哪些任務上能替代人」。
不過，愛丁堡大學信息學院的 Jeff Dalton 博士也指出了一個現實問題——目前的演示里，幾乎沒有足夠詳細的評估證據來支撐那些宏大的說法。能力是真實的，但邊界在哪里，還需要更多獨立驗證。

03
Agent 戰場，沒有安全區

如果說 GPT-5.4 代表 OpenAI 的 Agent 野心，那競爭對手們并沒有閑著。
Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上線了「Computer Use」功能， Anthropic 把它定位為專為復雜任務設計的混合推理模型。
Google 的 Gemini 2.0 系列也在「Agentic」能力上持續發力， Project Mariner 已經可以在 Chrome 瀏覽器里自主完成多步操作。
但 GPT-5.4 和競品的本質差異，在于它是 OpenAI 第一個把計算機操作能力，內置進通用模型的產品——不是一個獨立工具，不是需要額外調用的 API ，而是模型本身就帶著這個能力。
這個「原生」二字，在工程實現上意味著什么，說白了就是更低的延遲、更自然的任務銜接、更少的「膠水代碼」。對于想快速落地 Agent 應用的企業來說，這個區別直接影響部署成本。
OpenAI 還宣布 GPT-5.4 可以直接接入微軟 Excel 和 Google Sheets ，在單元格層面完成粒度分析和自動化操作。這一步，明顯是在打企業決策流程的核心地帶。
Agent 的戰場，從來就不是哪家跑得快，而是誰能最先把自己嵌進企業工作流里，成為那個「拔不掉的存在」。
技術發布會總是充滿激情，但真正的考驗在第 91 天——那時候熱度散去，用戶在真實工作場景里打開這個工具，它能不能穩穩接住那個截圖，準確點下那個按鈕，安靜地把任務跑完，然后把結果交回來。
那個開發者說的「隱瞞錯誤」，是我目前看到的這篇報道里最值得警惕的一句話。
AI Agent 能力的天花板，從來不是「它能做什么」，而是「你敢不敢信任它去做」。
信任，才是這場 Agent 戰爭真正的貨幣。
【GPT-5.4！「Agent 原生」大模型來了？】*頭圖來源：OpenAI

推薦閱讀

上一篇：2026年國補上線如何聰明購機，這四款筆記本適配多學習場景值得入

下一篇：炮火，AI，全球飄零：逆潮中的伊朗開發者