OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴

文章圖片

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴


機器之心編輯部
周五凌晨 , OpenAI 正式發布 GPT-5.4 , 引入了一種新模式:原生的計算機使用 。

【OpenClaw絕配!GPT-5.4問世,AI能力開始大一統,就是太貴】有意思的是 , 這次 GPT-5.4 的上新 , 恰好發生在知名開發者 Peter Steinberger 加入 OpenAI 不久之后 。 這很難不讓人猜測 , Peter 的加入會對 OpenAI 在計算機使用和開發者工具方向上的布局產生多少影響 。 Peter 本人也進行了宣傳:

還有網友表示:GPT-5.4 的發布 , 到處都有 Peter Steinberger 的「爪印」!GPT-5.4 看起來就像是 OpenClaw 的架構文檔被直接做成了一個前沿模型 , 而這一切發生在 Peter 加入 OpenAI 僅僅 3 周之后 。 該網友還進行了一些對比 , 比如以前所有工具定義都必須塞進 prompt 里 , 浪費成千上萬的 token , 現在是 GPT-5.4 可以按需查找工具定義 , token 使用量減少 47% 。 而 OpenClaw 從第一天起就通過描述匹配動態加載技能(skills) 。
又比如 , 過去 , 模型本身并沒有原生能力去直接操作軟件或執行完整的開發流程 。 而在 GPT-5.4 中 , 智能體已經可以在不同應用之間自動運行「構建 → 運行 → 驗證 → 修復」的循環 , 實現較為完整的任務閉環 。 值得注意的是 , 這種工作模式與 OpenClaw 的設計非常相似 。

而這些變化 , 也正好引出了 GPT-5.4 最核心的一點:原生計算機使用能力(Computer Use) 。
新一代大模型在知識工作和網絡搜索方面表現更出色 , 具備原生的計算機使用能力 。 GPT-5.4 現在可以直接操作軟件、使用工具、瀏覽網頁、執行工作流程 , 并規劃跨應用程序的復雜任務 , 最多可處理 100 萬個上下文 token 。
推理 + 編碼 + 智能體 + 計算機控制 , 全都融合在同一個前沿模型里 。
目前 , GPT-5.4 已在 OpenAI 的 API 和 Codex 中提供 , 并正在 ChatGPT 中逐步推出(面向 ChatGPT Plus、Team 和 Pro 用戶開放) , 取代了 GPT-5.2 Thinking 模型 。 OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro(面向 Pro 和企業版用戶開放) , 其專為那些希望在復雜任務中實現極致性能的用戶設計 。
在 API 中 , GPT-5.4 的 token 價格高于 GPT-5.2 , 批量處理和靈活處理的價格為標準 API 費率的一半 , 而優先處理的價格為標準 API 費率的兩倍 。

在評測基準上 , GPT 5.4 Pro 以 38% 的成績輕松擊敗了最難的數學基準測試 FrontierMath Tier 4—— 該基準包含 50 道研究級別的數學題 , 數學家可能需要幾周時間才能解決 。 僅僅在一年前 , 最佳成績為 2% (o3), 目前最佳的開源模型分數為 4.2% (Kimi K2.5) 。


作為通用模型 , GPT-5.4 具備原生的計算機使用能力 , 這對于開發者和智能體而言是一次重大飛躍 。
OpenAI 表示 , 新模型能在各種計算機工作負載下保持高性能 。 它非常擅長編寫代碼來操作計算機(例如通過 Playwright 等庫) , 也能根據屏幕截圖發出鼠標和鍵盤命令 。 它的行為可以通過開發者消息進行控制 , 這意味著開發者可以根據特定用例調整其行為 。 開發者甚至可以通過指定自定義確認策略來配置模型的安全行為 , 以適應不同的風險承受能力 。
該模型的性能和靈活性體現在各項基準測試中 , 在 OSWorld-Verified 測試中 , 該測試通過屏幕截圖和鍵盤 / 鼠標操作來衡量模型在桌面環境中導航的能力 , GPT-5.4 取得了 75.0% 的領先成功率 , 遠超 GPT-5.2 的 47.3% , 也超越了人類的 72.4% 。

在 GDPval 測試中 , GPT-5.4 在 83.0% 的比較中達到或超過了行業專業人士的水平 , 而 GPT-5.2 的這一比例為 70.9% 。

GPT-5.4 計算機性能的提升得益于其增強的通用視覺感知能力 。 在 MMMU-Pro 測試中 , GPT-5.4 在不使用任何工具的情況下取得了 81.2% 的成功率 , 優于 GPT-5.2 的 79.5% 。
視覺感知能力的提升也體現在其文檔解析能力的增強上 。 在 OmniDocBench 測試中 , GPT-5.4 在不使用任何推理工具的情況下 , 平均誤差為 0.109 , 優于 GPT-5.2 的 0.140 。

代碼生成方面 , GPT-5.4 結合了 GPT-5.3-Codex 的編碼優勢 , 并具備領先的知識處理和計算機使用能力 , 這在長時間運行的任務中尤為重要 , 因為模型可以利用工具、迭代并推進工作 , 從而減少人工干預 。 在 SWE-Bench Pro 測試中 , GPT-5.4 的性能與 GPT-5.3-Codex 持平或更優 , 同時在推理過程中延遲更低 。

啟用 Codex 中的 /fast 模式后 , GPT-5.4 的 token 處理速度最高可提升 1.5 倍 。 它采用的是相同的模型和智能 , 只是速度更快 。 這意味著用戶可以更流暢地完成編碼任務、迭代和調試 , 保持高效的工作流程 。

使用 GPT-5.4 生成的 RPG 游戲 , 經過多回合迭代開發 。

根據一個簡單的提示 , 制作的金門大橋飛行體驗 。
https://mp.weixin.qq.com/s/ZELwUixswcmWUULx7Urvww?click_id=28
在 API 中 , GPT-5.4 引入了工具搜索功能 。 這使得模型能夠在擁有眾多工具的情況下高效運行 。
以前 , 當給模型分配工具時 , 所有工具的定義都會預先包含在請求請求中 。 對于擁有大量工具的系統 , 這可能會在每個請求中增加數千甚至數萬 token , 從而增加成本、降低響應速度 , 并使上下文信息過于擁擠 , 而這些信息模型可能永遠不會用到 。
通過工具搜索 , GPT-5.4 會收到一個輕量級的可用工具列表以及相應的工具搜索功能 。 當模型需要使用某個工具時 , 它可以查找該工具的定義 , 并將其添加到當前的對話中 。
這種方法顯著減少了工具密集型工作流程所需的 token 數量 。 它還使智能體能夠可靠地與規模更大的工具生態系統協同工作 。 對于可能包含數萬個工具定義令牌的 MCP 服務器而言 , 效率提升可能非常顯著 。
OpenAI 評估了 Scale 的 MCP Atlas 中的 250 項任務 , 工具搜索配置在保持相同準確率的同時 , 將總 token 使用量減少了 47% 。

GPT-5.4 改進了工具調用 , 使其在推理過程中(尤其是在 API 調用中)能夠更準確、更高效地決定何時以及如何使用工具 。 與 GPT-5.2 相比 , 它在 Toolathlon 測試中以更少的回合數實現了更高的準確率 。


GPT-5.4 在自主網絡搜索方面也表現更佳 。 在 BrowseComp 測試中 , GPT-5.4 比 GPT-5.2 提升了 17% 而 GPT-5.4 Pro 則達到了 89.3% , 創下了新的最高水平 。
這意味著 GPT-5.4 Thinking 更擅長回答需要整合網絡上多個信息源的問題 。 它可以更持久地進行多輪搜索 , 以識別最相關的信息源 , 尤其適用于「大海撈針」式的問題 , 并將它們綜合成清晰、論證充分的答案 。

在 ChatGPT 中 , GPT-5.4 Thinking 現在可以預先提供其思考計劃 , 你可以在它運行過程中隨時調整方向 , 最終無需額外迭代即可獲得更符合需求的答案 。 GPT-5.4 Thinking 還改進了深度網絡搜索 , 尤其是在處理高度具體的查詢時 , 同時能夠更好地保留需要長時間思考的問題的上下文信息 。 這些改進共同作用 , 意味著能夠更快地獲得更高質量、更貼合當前任務的答案 。
在 Codex 和 API 中 , GPT-5.4 是首個具備原生、最先進的計算機使用能力的通用模型 , 它使智能體能夠操作計算機并在各種應用程序中執行復雜的流程 。 GPT-5.4 還通過工具搜索功能改進了模型在大型工具和連接器生態系統中的運行方式 , 幫助智能體更高效地找到并使用合適的工具 , 同時又不犧牲智能水平 。
GPT-5.4 也是目前 OpenAI token 效率最高的推理模型 , 與 GPT-5.2 相比 , 它解決問題所需的 token 數量顯著減少 , 這意味著更少的費用和更快的速度 。
結合通用推理、編碼和專業知識工作的進步 , GPT-5.4 能夠實現更可靠的智能體、更快的開發者工作流程以及 ChatGPT、API 和 Codex 的更高質量輸出 。

OpenAI 重點提升了 GPT-5.4 創建和編輯電子表格、演示文稿和文檔的能力 。 在一系列演示文稿評估提示中 , 由于 GPT-5.4 的演示文稿具有更強的美觀性、更豐富的視覺效果以及更高效的圖像生成功能 , 獲得了人類評分者的青睞 。

OpenAI 研究科學家 , 德撲 AI Libratus 的發明者 Noam Brown 表示 , GPT-5.4 在計算機應用和經濟價值任務(例如 GDPval)上已取得了巨大進步 。 鑒于此 , 科學家們認為人工智能的發展前景廣闊 , 預計今年內 AI 能力將繼續大幅提升 。
智力的指數增長還在繼續 。 有人表示 , ChatGPT 很快就會比最好的咨詢公司、最好的投資銀行和最好的律師事務所都更出色 。
最后 , 很多人已經在使用 GPT-5.4 嘗試各種任務了 , 不知道新一代模型具體表現如何 。

有人已經認為 , GPT-5.4 Pro 達到了 AGI 級別的智能 。 現在 , 你有什么 AGI 級別的問題要問嗎?
參考內容:
https://openai.com/index/introducing-gpt-5-4/
https://openai.com/index/gpt-5-4-thinking-system-card/

    推薦閱讀