最強牛馬狙擊編程之王，OpenAI和Anthropic深夜同發大招

2026-02-25 ai

文章圖片

文章圖片

文章圖片

2026年的這一天注定會被寫入AI發展史。
Claude Opus 4.6和GPT-5.3 Codex在相隔不到一個小時的時間里先后發布。
兩家公司似乎都憋著一口氣，要在同一個時間節點上交出自己的答卷。
“撞車”的背后，是一場關于資本、技術和市場話語權的較量。
就在兩周前，英偉達剛剛宣布向Anthropic投資100億美元，這筆錢讓Anthropic的估值飆升到3500億美元。
消息傳出后不到72小時，英偉達轉身又向OpenAI注資200億美元。
黃仁勛的算盤打得很清楚：兩邊都押注，誰贏都不虧。
但對Anthropic和OpenAI來說，這不只是拿到錢那么簡單。
兩家公司都計劃在2026年下半年到2027年左右啟動上市程序，現在正是證明自己技術實力、爭奪市場定價權的關鍵時刻。
投資人要看的不是PPT上的承諾，而是能拿出手的產品。
誰的模型更強，誰在實際應用中更有說服力，誰就能在IPO時要到更高的價格，拿到更多的籌碼。
一山容不得二虎， Anthropic和OpenAI必須得讓對方明白，誰才是老大。
因此，這種產品節奏不是巧合，而是卡好了表的對轟。
兩家公司都清楚，在這個時間點上，每一次產品發布都是一次融資路演，每一個技術突破都會直接影響投資人的判斷和市場的預期。
不過從產品本身來看，兩家公司確實都拿出了真本事。
01
Claude Opus 4.6
Anthropic這次對 Claude Opus 系列的升級，核心放在了“更聰明地思考”這件事上。
Opus 4.6最顯著的變化是它學會了“adaptive thinking” ，模型會根據任務的復雜程度自動調整思考深度。在困難問題上花更多時間思考，而在簡單任務上快速通過。
在代碼能力方面， Opus 4.6在Terminal-Bench 2.0這個評測中拿到了最高分。

這個測試專門考察AI在終端環境下的操作能力。模型需要知道什么時候該用哪個命令，如何組合不同的工具，以及怎么從錯誤信息里找到問題所在。
這就像是考察一個程序員會不會熟練使用各種開發工具。不只是寫代碼，還要會調試、會部署、會看日志找bug 。
更重要的是， Opus 4.6是Anthropic第一個提供100萬token上下文窗口的Opus級別模型。這個數字意味著模型可以一次性處理相當于兩本中等厚度小說的文本量。
在長文本處理的測試中， Opus 4.6在MRCR v2的8-needle 1M 變體上得分76% ，而上一代的Sonnet 4.5只有 18.5% 。
簡單一點來理解，就是給模型一大堆文檔，然后問它一個需要綜合多處信息才能回答的問題。
以前的模型看著看著就“忘了”前面的內容，或者找不到關鍵信息。 Opus 4.6能在海量文本里準確定位需要的信息，而且不會因為文檔太長就表現下降。
在知識工作能力的評測GDPval-AA 上， Opus 4.6比OpenAI的GPT-5.2高出約144Elo分，比自己的前代Opus 4.5高出190分。這個測試涵蓋了金融、法律等領域的實際工作任務，比如制作財務分析報告、起草法律文件、做市場調研等。

Anthropic還在產品層面做了不少配套更新。
Claude Code現在支持“agent teams”功能，可以同時啟動多個AI代理，讓它們各自負責不同的子任務，然后自動協調工作。
對于那些大型的代碼庫，這個功能特別有用，可以把工作拆分給不同的代理并行處理。
在辦公軟件集成方面， Anthropic推出了Claude in PowerPoint的研究預覽版，并大幅升級了Claude in Excel 。
現在Claude可以直接在Excel里處理更復雜的任務，支持數據透視表編輯、圖表修改、條件格式化等功能。在 PowerPoint 里， Claude 能讀懂現有的版式、字體和母版設計，然后按照這個風格創建新的幻燈片。
就是讓AI真正進入你日常工作的工具里。不用來回復制粘貼，直接在Excel或PowerPoint的側邊欄跟Claude對話，它就能幫你改表格、做圖表、生成演示文稿。
而且它會學習你的風格，做出來的東西不會顯得格格不入。
在API層面， Anthropic引入了“effort”參數，提供低、中、高、最高四個檔位。
開發者可以根據任務的復雜度選擇合適的檔位，在成本、速度和質量之間找平衡。還有“context compaction”功能，當對話接近上下文窗口限制時，會自動總結并替換較早的內容，讓長時間運行的任務不會因為超出限制而中斷。
可以理解為給開發者更多的控制權。
簡單任務用低檔位，省錢又快；復雜任務用高檔位，保證質量。對話太長了系統會自動壓縮前面的內容，這樣就能一直聊下去。
在安全性方面， Anthropic這次做了他們有史以來最全面的安全評估。
Opus 4.6在自動化行為審計中顯示出較低的不當行為率，包括欺騙、阿諛奉承、鼓勵用戶妄想和配合濫用等。
由于 Opus 4.6在網絡安全方面的能力有顯著提升， Anthropic專門開發了六個新的網絡安全“探針”來檢測潛在的濫用行為。
同時，他們也在用這個模型幫助開源軟件查找和修補漏洞，希望讓防御方也能用上AI的力量。
02
Advancing Finance：
金融領域的深度應用
Anthropic專門發布了一篇文章，詳細介紹Claude Opus 4.6在金融領域的應用。
在金融工作中，專業人士需要AI做三件事：研究、分析和創建交付物。 Opus 4.6在這三個維度上都達到了業內領先水平。
在研究能力上， Opus 4.6在BrowseComp和DeepSearchQA兩個基準測試中都有提升。
這兩個測試考察的是模型從大量非結構化數據中提取特定信息的能力。
對金融分析師來說，這意味著可以把一堆公司財報、行業報告、新聞文章扔給AI ，然后問一個很具體的問題， AI能給出針對性的答案，而不是泛泛的總結。
你丟給它一份財報，以前問AI“這家公司的盈利能力如何” ，它可能給你的是一大段話，然后再把財報內容復述一遍。
現在它能直接告訴你關鍵指標是什么，跟行業平均水平比怎么樣，有哪些風險因素。
在分析能力上， Opus 4.6在 Finance Agent這個外部基準測試中達到60.7%的準確率，比Opus 4.5提升了5.47個百分點。
在稅務評估TaxEval 上， Opus 4.6也達到了76%的業內最高水平。
Anthropic用一個商業盡職調查任務做了對比，他們讓Claude Opus 4.6去評估一個潛在的收購目標。這種工作通常需要一個資深分析師花兩到三周時間才能完成。
但是Opus 4.6的首次輸出在結構、內容和格式上都比Opus4.5更接近可以直接使用的標準。
也就是說，現在做出來的東西你小改一下就能用。這對于需要快速產出報告、演示文稿的金融從業者來說，效率提升是實實在在的。
Anthropic的內部“真實世界金融”評估涵蓋了約50個投資和財務分析用例，包括電子表格、幻燈片和文檔的生成與審閱。
這些是投資銀行、私募股權、公開市場投資和企業財務領域分析師的常見任務。 Opus 4.6比幾個月前的Sonnet 4.5提升了超過23個百分點。
配合Cowork這個新功能，金融團隊可以同時啟動多個分析任務。 Cowork讓Claude可以訪問你指定的本地文件夾，直接在里面讀取、編輯和創建文件。
對金融團隊來說，這意味著可以一次性布置幾個分析任務，同時監督 Claude 創建每個交付物的過程，確保符合自己的標準。
03
GPT-5.3 Codex：
自己訓練自己的模型
在Claude Opus 4.6發布的幾十分鐘后，奧特曼突然發了一條X ，宣布GPT-5.3 Codex 。

我在這里也是代表字母AI ，給奧特曼和阿莫迪一點面子，給他們分別點了喜歡和轉發。
GPT-5.3 Codex最牛的地方在于，它能像真人同事一樣干活，而且可以邊干活邊跟你商量。
以前的AI是“你說一句我做一句” ， GPT-5.3 Codex是“有問題隨時問你” 。
你給它一個復雜任務，它能自己琢磨幾個小時甚至幾天，中途還會主動跟你匯報進度、問你意見，你隨時可以插話調整方向。
有意思的是， OpenAI用GPT-5.3 Codex的早期版本來幫忙開發后續版本。也就是說，讓AI幫著調試AI的訓練過程、修bug、優化系統， OpenAI團隊說這讓開發速度快得驚人。
GPT-5.3 Codex在多個基準測試中創造了新的行業紀錄。在SWE-Bench Pro上，它達到了56.8%的準確率，這是一個嚴格的真實世界軟件工程評估。
與只測試Python的SWE-bench Verified不同， SWE-Bench Pro涵蓋四種編程語言，更抗污染、更具挑戰性、更多樣化，也更貼近行業實際。
在Terminal-Bench 2.0上， GPT-5.3 Codex達到77.3% ，遠超之前的64% 。
這個測試衡量的是代碼代理需要的終端技能，也就是在命令行環境下完成各種操作的能力。值得注意的是， GPT-5.3 Codex用的token數量比之前任何模型都少，這意味著用戶可以用同樣的成本做更多事情。
在 OSWorld-Verified 這個測試中， GPT-5.3 Codex得分 64.7% ，而GPT-5.2-Codex只有38.2% 。
這是一個代理計算機使用基準測試， AI需要在可視化的桌面計算機環境中完成生產力任務。人類在這個測試中的得分約為72% ， GPT-5.3 Codex已經接近人類水平。
在網頁開發方面OpenAI展示了一個對比案例：讓GPT-5.3 Codex和 GPT-5.2-Codex分別創建一個 SaaS 產品的落地頁。
GPT-5.3 Codex自動把年度套餐顯示為折扣后的月度價格，讓優惠看起來更清晰、更有意圖，而不是簡單地把年度總價乘出來。

GPT-5.3 Codex

GPT-5.2 Codex
它還做了一個自動切換的用戶評價輪播，包含三條不同的用戶評價，而不是只有一條，讓整個頁面感覺更完整、更接近可以上線的狀態。
簡單來說，就是它會考慮用戶體驗和營銷效果。不是機械地實現功能，而是會想“怎么做更好” 。這種對細節的把握和對最終效果的理解，讓它做出來的東西更接近專業水平。
GPT-5.3 Codex的能力不僅限于編碼。
它支持軟件生命周期中的所有工作，比如調試、部署、監控、編寫產品需求文檔、編輯文案、用戶研究、測試、指標分析等等。
在GDPval測試中， GPT-5.3 Codex的表現與GPT-5.2持平，達到70.9%的勝率或平局率。這個測試衡量的是模型在 44 個職業的明確知識工作任務上的表現，包括制作演示文稿、電子表格和其他工作產品。

【最強牛馬狙擊編程之王，OpenAI和Anthropic深夜同發大招】一個有趣的細節是，兩家公司都強調了“自己用自己的產品” 。 Anthropic 說“我們用 Claude 來構建 Claude” ，OpenAI說“GPT-5.3 Codex在自己的開發中發揮了關鍵作用” 。
這其實是最好的廣告，如果自己的工程師都不愿意用，怎么能指望別人用？
而且從技術演進的角度看，兩個模型都代表了 AI 從“回答問題”到“完成工作”的轉變。
它們不再滿足于生成一段文字或一段代碼，而是要能夠執行完整的工作流程，產出可以直接使用的交付物。這種轉變對 AI 的要求高得多：不僅要懂技術，還要懂業務；不僅要能做，還要做得好；不僅要快，還要穩。
值得注意的是，兩家公司都沒有回避 AI 能力提升帶來的風險。 Anthropic 做了“有史以來最全面的安全評估” ，OpenAI 部署了“最全面的網絡安全防護措施” 。
從用戶角度看，兩家公司的競爭是好事。不同的需求可以找到不同的解決方案，不同的工作方式可以選擇不同的工具。更重要的是，競爭會推動雙方繼續創新，讓AI能力的邊界不斷擴展。
而且這兩個產品的發布也標志著AI進入了一個新階段。不再是“能不能做”的問題，而是“怎么做得更好”的問題。

推薦閱讀

上一篇：登頂AppStore榜首，千問不“送錢”只“請客”

下一篇：科技護航人間煙火高德鷹眼系統正成為“第二安全帶”