52天75次發布,A司這場“產品大爆炸”太猛烈了

52天75次發布,A司這場“產品大爆炸”太猛烈了

文章圖片

52天75次發布,A司這場“產品大爆炸”太猛烈了

文章圖片

52天75次發布,A司這場“產品大爆炸”太猛烈了

文章圖片



最近兩個月我在刷手機的時候 , 感覺每天都有Anthropic的新聞 。 今天發布了個啥 , 明天又發布了個啥 。
產品管理社區Product Compass創始人帕維爾·胡林(Pawe? Huryn)也有相同的感覺 , 于是他把這些新聞整理成了一份日歷發在X上 , 從美東時間2月1日到3月23日 , Anthropic在52天發布了73款產品 。

這條X發出的當天 , Anthropic發布了Computer Use(電腦操控功能) , 以及Claude Code Channels for Teams + Enterprise 。
所以應該叫52天發布75個產品才對 。
這篇X剛發出不到24小時 , Anthropic又發布了Claude的Auto Mode 。
Anthropic相當于每0.7天就發布一個新產品 , 是OpenAI自稱“每3天一個新功能”速度的4倍以上 , 甚至說我還沒寫完一篇稿 , 下一個新產品就已經發布了 。
在之前字母AI的文章《150萬AI agent社交狂歡背后 , 是一場“產品大爆炸”》中 , 我提出了“產品大爆炸”的概念 , 自從Claude Code 掀起編程革命之后 , 整個AI圈都投入了一場產品創新迭代的浪潮之中 , “龍蝦”OpenClaw就是其中的代表 。 毫無疑問 , Anthropic既是“產品大爆炸”的引領者 , 同時也是最大的受益者和踐行者 。
但是你有沒有想過 , 為什么Anthropic能做到?
誠然 , AI編程是至關重要的一環 , 用AI來開發 , 事半功倍 。
可是在全球最嚴格的編程測試集SWE-Bench Pro里 , ChatGPT-5.4和Gemini 3 Pro的成績都比Claude Opus 4.6要高 。
所以在我看來 , AI編程只是第一步 , 它是目前所有AI公司都擁有的能力 , Anthropic的成功并不只在于此 。
而是在于他們形成了技術自舉的加速循環 , 用AI來完成整個閉環 。 人類開發者在其中的作用 , 只是提供一個想法 , 唯一需要做的就是等AI跑出結果 。
當工具開始制造工具本身時 , 我們可能正在目睹技術奇點的早期信號 。
現在看是52天發布75款產品 , 過幾天可能就縮短到30天發布80款產品 , 15天發布100款產品……
Anthropic如今的成功 , 正在迫使行業老大OpenAI重新審視自己的戰略 , 開始全面模仿Anthropic的路徑 。
01
52 天的產品浪潮
引領這場產品浪潮的是Anthropic在1月中旬發布的Cowork 。
這個產品開發團隊只有4個人 , 總工時10天 , 90%的代碼由AI編寫 。
可就是這么一個超短周期的產品 , 卻能根據你所描述的任務 , 自主實現規劃、執行 , 以及交付結果 。 徹底改變了許多人的工作方式 。
顯然 , Cowork的成功給了Anthropic信心 。 于是到了2月初開始 , 浪來了 。
Claude上線了法律插件 , 它能夠審查法律文件、追蹤合規任務、自動化合同審查 , 與Thomson Reuters等法律數據庫深度集成 。
這個插件在單日引發全球軟件和服務類股票約2850億美元的拋售 , 6個交易日總共造成8300億美元的拋售 。
Thomson Reuters、LegalZoom等法律科技公司股價當場暴跌 , 軟件ETF基金IGV從2026年初至2月27日下跌22.8% 。
2月17日 , 重磅炸彈Claude Sonnet 4.6來了 。
這是Anthropic產品歷史上第一次 , Sonnet級別的模型在編程測試中超越了上一代的Opus 。
Sonnet 4.6的上下文窗口擴展到了100萬token , 約75萬個單詞 , 相當于2500頁文檔 , 意味著AI可以一次性處理整個大型代碼庫 。
過去企業在選擇AI服務時 , 成本和能力是蹺蹺板的兩端 , 性能高價格就高 , 價格低性能就低 。
現在Anthropic把蹺蹺板拆了 , Sonnet 4.6比Opus 4.6便宜了將近一半 , 加速了企業市場向Anthropic的遷移 。
2月20日 , Claude Code Security上線 , 使用基于推理的掃描來發現代碼庫中的零日漏洞 。
傳統安全掃描工具需要不斷更新規則庫 , 就像是拿著通緝犯照片在街上找人 。
而Claude Code Security可以發現從未見過的漏洞模式 , 它理解代碼編寫的邏輯 , 所以能在很早的時候就判斷出哪些地方可能出問題 , 即使這個問題從沒有被記錄過 。
2月24日 , Anthropic開始發布大體量的產品 , 這家公司在當天連發了10個企業插件 。
包括投資銀行插件能做交易審查、估值建模 , 財富管理插件能做投資組合分析 , 私募股權插件能做盡職調查 , 人力資源插件能處理入職材料、品牌規范 , 還有工程、設計、運營等插件 。
Anthropic與FactSet、S&P、Thomson Reuters、RBC Wealth Management等行業巨頭深度合作 。
市場再次出現拋售 , 但是與Anthropic合作的公司股票反而上漲 。 投資者的理由很簡單 , “與Anthropic合作”是生存之道 , 而非對手 。
同期 , 私有插件市場上線 。
Anthropic為企業客戶提供了一個“私有插件市場” , 企業可以開發自己的插件 , 將公司特有的工作流、合規要求、品牌規范編碼為agent , 然后在組織內部分發 。
它把Anthropic的能力變成了一個平臺 , 企業不再是購買一個工具 , 而是獲得了一個可以無限擴展的基礎設施 。
3月9日 , Code Review上線 。
當AI開始大量生成代碼 , 這時候人類就審查不過來了 , 只能交給AI自己來處理 。
Code Review就是這樣一款專門審查代碼的多agent系統 。 它能自動分析代碼邏輯、標記錯誤、識別安全漏洞 , 每次審查成本15到25美元 。
同時這也是Anthropic實現AI開發自舉循環的關鍵一環 。
3月11日 , Anthropic邁出了更大的一步 , 發布了微軟Excel和PowerPoint跨應用協作功能 。
Anthropic讓Claude可以在Excel和PowerPoint之間無縫工作 。
舉個例子 , 你可以讓Claude從Excel中提取財務數據、構建交易對比表 , 然后自動將估值摘要放入演示文稿 , 最后起草發郵件 。
整個過程信息、指令、任務歷史在不同應用間流動 , 用戶不需要重復說明上下文 。
這個功能雖然說起來簡單 , 然而它實際上解決了一個長期存在的問題:AI的記憶是孤立的 。 你在Excel里告訴AI的事情 , 到了PowerPoint里它就忘了 。
3月17日 , 持久化agent線程發布 。
用戶現在可以用Claude Apps來管理Cowork中的任務 , agent可以跨會話保持上下文和任務狀態 。 你早上在手機上給AI布置任務 , 下午在電腦上打開 , AI還記得你要什么 , 進展到哪里了 。
根據Ramp的數據 , 僅僅10周 。 在首次購買AI工具的企業中 , Anthropic占據的份額從50%飆升至73% , OpenAI從50%跌至27% 。 在整體企業市場中 , Anthropic的份額超過40% , OpenAI為27% 。
OpenAI被打得有點懵圈了 。
02
為什么是 Anthropic 引領了這場浪潮
前面咱們也說過了 , 別人的AI編程能力比 Anthropic 還強 , 但是憑什么是Anthropic領先呢?
核心原因不在AI編程上 , 而是在于Anthropic使用的線束架構(harness) 。
線束架構不是新鮮事物 , OpenAI也在用 。
線束架構的本質是一個讓agent能夠長時間自主運行、完成復雜任務的編排系統 。
【52天75次發布,A司這場“產品大爆炸”太猛烈了】在Anthropic的官方blog中寫到 , 如果把AI模型比作引擎 , 線束就是讓引擎持續運轉的整套基礎設施 。 線束管理上下文、編排多個agent協作、處理任務分解、進行狀態傳遞 , 確保AI能夠在數小時甚至更長時間內自主工作 , 而不需要人類持續介入 。
Anthropic在構建長時間運行的AI編程系統時 , 發現了兩個關鍵問題 。
第一個是上下文焦慮 。 當任務變得復雜、對話歷史變長時 , 模型會開始失去連貫性 。 模型會出現“上下文焦慮” , 當它們認為快要達到上下文限制時 , 會過早地結束工作 。
就像一個打工人 , 眼看快下班了 , 可是他手頭的活還沒干完 , 他就只能匆匆收尾 。
Anthropic的解決方案是上下文重置(Context Reset) 。 完全清空上下文窗口 , 啟動一個全新的agent , 但通過結構化的“交接文檔”傳遞前一個agent的狀態和下一步計劃 。
這給了agent一個干凈的起點 , 同時保持了工作的連續性 。 這與簡單的“壓縮”不同 。 壓縮是把早期對話總結后保留在同一個會話中 , 但“上下文焦慮”依然存在 。
重置則是徹底的新開始 , 代價是需要精心設計交接文檔 , 確保下一個agent能無縫接手 。
第二個問題是自我評估失效 。
當要求AI評估自己生成的代碼或設計時 , 它們傾向于自信地稱贊自己的作品 , 即使在人類看來質量明顯平庸 。 這個問題在主觀任務上尤其嚴重 , 因為沒有像軟件測試那樣的二元驗證標準 。
你讓AI設計一個網頁 , 它做完了 , 你問它做得怎么樣 , 它說“非常好 , 符合現代設計美學” 。 你一看 , 又是紫色漸變配白色卡片 , 丑絕人寰 , 甲方看了想退單 , 產品看了想殺人 。
Anthropic的解決方案是分離生成者和評估者 。
讓一個agent負責生成 , 另一個agent負責評判 。 這種分離本身不會立即消除寬容傾向 , 可是一旦外部反饋輸入 , 生成者就有了具體的改進目標 。
Anthropic目前采用了三agent的線束架構 , 分別是Planner、Generator、Evaluator 。
這個系統實現了完整的AI編程閉環 。
Planner(規劃agent)的任務是把用戶的簡單想法擴展為完整的產品規格文檔 。
用戶只需提供簡單的想法 , Planner就會將其擴展為完整的產品規格文檔 。
Anthropic特意讓Planner專注于產品背景和高層技術設計 , 而不是細節實現 。 因為如果Planner在前期就指定了錯誤的技術細節 , 這些錯誤會級聯到后續實現中 。 所以才要約束最終交付物 , 讓agent在工作中自己找到路徑 。
Generator(生成agent)采用“一次一個功能”的方式工作 , 從規格文檔中逐個挑選功能實現 。
每個沖刺(sprint)結束后 , Generator會先自我評估 , 然后將工作交給Evaluator進行質量檢查 。 它使用React、Vite、FastAPI、SQLite或PostgreSQL技術棧 , 并通過git進行版本控制 。
Generator就是真正干活的那個 。 它不會一口氣把所有功能都做完 , 而是一次只做一個功能 。
做完一個功能后 , 它會先自己檢查一遍 , 然后把成果交給Evaluator去打分 。 它用的都是現成的主流技術 , 而且還會做版本管理 , 以便做壞的時候恢復到以前版本 。
Evaluator(評估 agent)使用Playwright MCP工具 , 像真實用戶一樣點擊運行中的應用 , 測試UI功能、API端點和數據庫狀態 。
然后根據一套標準對每個沖刺打分 , 比如產品深度、功能性、視覺設計、代碼質量之類的 。
每個標準都有硬性閾值 , 如果任何一項低于閾值 , 沖刺就會失敗 , Generator會收到詳細的反饋說明哪里出了問題 。
除此之外 , 在每個沖刺開始前 , Generator和Evaluator會協商一份“沖刺合約” 。
在寫任何代碼之前 , 需要先達成合約上規定的東西 。
Generator提議要構建什么、如何驗證成功 , Evaluator審查這個提議 , 確保Generator在構建正確的東西 。
雙方通過文件進行溝通 , 一個agent寫文件 , 另一個讀取并回復 。 這種機制確保工作忠于規格 , 同時不會過早地過度指定實現細節 。
你可以這么理解 , 在每次開始干活之前 , Generator和Evaluator會先開個會 , 碰一碰需求 。 用行話來講就是“對齊一下顆粒度” 。
只有所有人都滿意這個方案的時候 , 才會開工去執行 , 并且每執行一步 , 都要拿出這個方案來再瞅一眼 。
Anthropic用同一個提示詞對單agent模式和三agent的線束模式進行測試 , 題目為:創建一個2D復古游戲制作工具 , 包含關卡編輯器、精靈編輯器、實體行為和可玩測試模式 。
單agent方式運行20分鐘 , 成本9美元 。 生成的界面看起來符合預期 , 但實際使用時問題不斷 。
布局浪費空間、工作流程僵硬、最關鍵的是游戲本身壞了 , 實體出現在屏幕上但不響應輸入 。


完整線束方式運行6小時 , 成本200美元 。
Planner將一句話提示擴展為16個功能、10個沖刺的完整規格 , 遠超單agent嘗試的范圍 。 除了核心編輯器和播放模式 , 還包括精靈動畫系統、行為模板、音效和音樂、AI輔助的精靈生成器和關卡設計器 , 以及帶分享鏈接的游戲導出功能 。


線束模式的成本是單agent的22倍 , 但產出的質量差距不是22倍能形容的 。 單agent的產出是一個看起來能用、實際不能用的半成品 。 完整線束的產出是一個可以直接發布的產品 。
這個架構的真正價值不在于它能做什么 , 而在于它能持續做什么 。 單agent可以完成一個簡單任務 , 但當任務復雜到需要數小時甚至數天時 , 單agent就會迷失方向 。
線束架構通過分工、檢查、重置 , 讓AI能夠像一個小團隊一樣工作 。
線束架構不是Anthropic的發明 , Anthropic的優勢在于 , 他們比別人更早、更系統地遇到這些問題 , 然后把解決方案標準化、產品化 。
03
Anthropic 幫助整個行業看清了方向
雖然Anthropic引領了這波產品浪潮 , 但是2026年初 , 整個AI行業最火的產品 , 卻不是Anthropic的產品 , 而是OpenClaw 。
大街小巷都有各種“養龍蝦”攻略教程 , 這已經無需多言 。
可OpenClaw的成功 , 恰恰證明了Anthropic路線是正確的 。
真正的護城河不在于模型性能 , 而是用AI來完成整個閉環 。
OpenClaw能訪問你的電腦文件系統、執行終端命令、控制瀏覽器、接入社交軟件 。 更重要的是 , 它運行在用戶自己的電腦上 , 擁有你給它的所有權限 。
你發一句話給它 , 它就能自己去執行 , 最后返回給你結果 。
當然它也會有失敗的時候 , 但是它絕大多數都能成功 。
這才致使用戶寧愿冒著巨大的安全風險 , 給AI開放底層電腦權限 , 讓它去幫自己訂票、發郵件、修Bug 。
用戶不是不在乎安全 , 他們對“讓AI干活”的渴求已經強烈到可以暫時壓過對風險的恐懼 。
還有一家企業也被Anthropic的產品大爆炸所影響 , 它就是OpenAI 。
2026年3月16日 , 在OpenAI的內部會上 , 應用業務CEO菲吉·西莫(Fidji Simo)直言:“Anthropic的進展應該成為警鐘 。 ”
自此 , OpenAI宣布從“do-it-all”策略轉向聚焦編程工具和企業客戶 。
在產品層面 , OpenAI計劃將ChatGPT、Codex、Atlas瀏覽器像 Claude 一樣合并為單一應用 。
在企業市場 , OpenAI也準備模仿Anthropic , 推出類似的插件市場 。
不過OpenAI現在面臨的問題是 , 即使他們理解了Anthropic的策略、也懂得構建類似的線束架構 , 他們還需要時間來追趕 。
可是在AI這個行業 , 時間就是一切 。 Anthropic可是每0.7天發布一個新產品 , OpenAI哪怕耽誤一秒鐘都有可能會掉隊 。
抓點緊吧!

    推薦閱讀