GPT-5.4!「Agent 原生」大模型來了?

GPT-5.4!「Agent 原生」大模型來了?

文章圖片

GPT-5.4!「Agent 原生」大模型來了?

在傳聞剛剛兩天后 , 當地時間 3 月 5 日 , OpenAI 就正式推出 GPT-5.4 。 而這次模型更新 , 主打的正是當下最火熱的 AI Agent 方向 。
在 GPT-5.4 之前 , 大模型的能力邊界可以用一句話總結:它能告訴你「怎么做」 , 但它自己做不了 。
你讓它幫你分析競爭對手 , 它會給你一份洋洋灑灑的文字報告;你讓它整理 Excel , 它會寫一段 Python 代碼讓你自己去跑;你讓它幫你訂機票 , 它會一步一步告訴你去哪個網站、點哪個按鈕 。
中間那道墻 , 叫做「計算機操作」 。
GPT-5.4 是 OpenAI 第一個把這道墻拆掉的通用模型 。

GPT-5.4 相比之前模型的提升|圖片來源:OpenAI

它可以通過截圖識別屏幕內容 , 發出鼠標和鍵盤指令 , 在不同應用之間執行多步工作流 。 用 OpenAI 自己的話說 , 這是他們「迄今為止面向專業工作最強大、最高效的前沿模型」 。
更技術一點 , GPT-5.4 支持高達 100 萬 token 的上下文窗口 , 并且可以調用 Playwright 等庫 , 直接操控瀏覽器和桌面應用 。
這意味著它處理的不再是「關于任務的對話」 , 而是「任務本身」 。

01
OpenAI 的鋪墊

如果你一直在跟蹤 OpenAI 最近幾個月的動作 , 會發現 GPT-5.4 不是一個突然冒出來的產品 , 而是一條清晰戰略線上的最新落子 。
就在兩周前 , OpenAI 剛剛發布了 GPT-5.3-Codex , 把 Codex 從「能寫代碼的 Agent」升級為「幾乎能做開發者在電腦上所有事情的 Agent」 , 并在 SWE-Bench Pro 和 Terminal-Bench 上刷新了行業基準 。
與此同時 , OpenAI 推出了面向企業的「Frontier」平臺 , HP、Intuit、Uber 已經是早期用戶 。

GPT-5.4 在表格填寫上明顯比 5.2 更聰明|圖片來源:OpenAI

更早之前的 3 月 2 日 , OpenAI 和 AWS 把原有的 38 億美元合作擴大到超過 1000 億美元 , 為期 8 年 , AWS 成為 OpenAI Frontier 平臺的獨家第三方云分發商 。 這筆錢的規模 , 本身就是一個信號 。
1100 億美元的最新融資輪 , 由 Amazon、SoftBank 和 Nvidia 各出數百億美元撐起來 , 也在同期落地 。
這不是一家在「研發好產品」的公司 , 這是一家在全力沖刺「贏得企業 AI Agent 市場」的公司 。
GPT-5.4 的原生計算機操作能力 , 正是這場沖刺的關鍵武器 。

02
真的好用嗎?

發布會上的功能演示永遠很好看 , 問題在于實際表現 。
金融科技公司 Walleye Capital 在內部測試中報告 , GPT-5.4 在 Excel 財務模型評估里 , 把準確度提高了 30 個百分點 , 顯著加快了情景分析的自動化流程 。
人才評估平臺 Mercor 的 CEO 則直接稱其為「我們測試過的最好模型」 , 在處理幻燈片制作、財務建模和法律分析等長周期任務上表現突出 。
一位每天使用 Codex 的獨立開發者 , 給出了更接地氣的評價:「GPT-5.4 是我在 Codex 里的新日常驅動 。 它的思考方式更接近人類 , 沒有 5.3 那么癡迷于技術細節 。 」但他也加了一句提醒——「要小心 , 我遇到過幾次模型錯誤執行任務卻隱瞞這一事實的情況 。 」

GPT-5.4 在操作和視覺方面的提升|圖片來源:OpenAI

這個細節值得玩味 。
基準測試數據也在印證這種能力的提升 。 據報道 , GPT-5.4 在 GDPval 基準上的表現超過了 83% 的普通辦公室員工 。 這個數字聽起來很炸 , 但真正的問題不是「它能超過多少人」 , 而是「在哪些任務上能替代人」 。
不過 , 愛丁堡大學信息學院的 Jeff Dalton 博士也指出了一個現實問題——目前的演示里 , 幾乎沒有足夠詳細的評估證據來支撐那些宏大的說法 。 能力是真實的 , 但邊界在哪里 , 還需要更多獨立驗證 。

03
Agent 戰場 , 沒有安全區

如果說 GPT-5.4 代表 OpenAI 的 Agent 野心 , 那競爭對手們并沒有閑著 。
Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上線了「Computer Use」功能 , Anthropic 把它定位為專為復雜任務設計的混合推理模型 。
Google 的 Gemini 2.0 系列也在「Agentic」能力上持續發力 , Project Mariner 已經可以在 Chrome 瀏覽器里自主完成多步操作 。
但 GPT-5.4 和競品的本質差異 , 在于它是 OpenAI 第一個把計算機操作能力 , 內置進通用模型的產品——不是一個獨立工具 , 不是需要額外調用的 API , 而是模型本身就帶著這個能力 。
這個「原生」二字 , 在工程實現上意味著什么 , 說白了就是更低的延遲、更自然的任務銜接、更少的「膠水代碼」 。 對于想快速落地 Agent 應用的企業來說 , 這個區別直接影響部署成本 。
OpenAI 還宣布 GPT-5.4 可以直接接入微軟 Excel 和 Google Sheets , 在單元格層面完成粒度分析和自動化操作 。 這一步 , 明顯是在打企業決策流程的核心地帶 。
Agent 的戰場 , 從來就不是哪家跑得快 , 而是誰能最先把自己嵌進企業工作流里 , 成為那個「拔不掉的存在」 。
技術發布會總是充滿激情 , 但真正的考驗在第 91 天——那時候熱度散去 , 用戶在真實工作場景里打開這個工具 , 它能不能穩穩接住那個截圖 , 準確點下那個按鈕 , 安靜地把任務跑完 , 然后把結果交回來 。
那個開發者說的「隱瞞錯誤」 , 是我目前看到的這篇報道里最值得警惕的一句話 。
AI Agent 能力的天花板 , 從來不是「它能做什么」 , 而是「你敢不敢信任它去做」 。
信任 , 才是這場 Agent 戰爭真正的貨幣 。
【GPT-5.4!「Agent 原生」大模型來了?】*頭圖來源:OpenAI

    推薦閱讀