GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器

GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器

文章圖片

GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器

文章圖片

GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器

文章圖片

GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器

文章圖片

GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器

文章圖片

GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器

文章圖片

GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器

文章圖片

GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器

文章圖片

GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器



編輯:定慧 艾倫
【新智元導讀】一個大模型持續寫代碼 , 能寫多久?一小時?一天?還是像大部分AI編程工具那樣 , 完成一個任務就結束對話?Cursor的CEO MichaelTruell決定搞一次極限壓力測試!
Michael Truell讓Cursor中的GPT-5.2連續運行了整整一周 。
不是一小時 , 不是一天 , 而是不眠不休 , 晝夜不停 , 168小時持續寫代碼 。
結果?
300萬行代碼 。 數千個文件 。
AI完全從零構建出一個全新瀏覽器 。

而且 , 還是Chrome那種瀏覽器 。
HTML解析、CSS布局、文本渲染、還有一個自研的JavaScript虛擬機——全是AI自己寫的 。
Michael Truell輕描淡寫地發了條推文:它基本能跑!簡單的網頁能快速且正確地渲染出來 。


一個模型究竟能跑多久
傳統的AI編程工具 , 比如Github Copilot和早期的其他IDE , 都是一問一答模式 。
對話長度有限 , 上下文有限 , 任務復雜度有限 。
后來出現了所謂的Agentic編程——Claude Code、Cursor Agent、Windsurf等工具讓AI可以自主執行多步任務 , 讀取文件、運行命令、修復錯誤 。
這已經是很大的進步 , 但大多數情況下 , 任務仍然以分鐘計算 , 最多幾小時 。
AI完成一個功能 , 人類review , 然后繼續下一個任務 。
【GPT-5.2連肝7天,300萬行代碼造出Chrome級瀏覽器】但沒有人嘗試過讓一個模型連續跑一周 。
直到GPT-5.2 。
Cursor團隊讓GPT-5.2持續運行了整整一周 , 不是斷斷續續 , 而是連續工作 。

在這一周里 , 它:

  • 寫下了超過300萬行代碼
  • 創建了數千個文件
  • 執行了數萬億個token
  • 從零構建了一個完整的瀏覽器渲染引擎
一個模型究竟能運行多久?
答案是:理論上 , 可以無限 。
只要基礎設施穩定 , 只要任務足夠明確 , AI就能持續工作——不眠不休 , 不吃不喝 , 7×24小時全年無休 。
就像澳洲的放羊大叔的「賽博黑工」 。
但實際上 , 不同模型的「耐力」差異巨大 。
上下文窗口是第一道門檻 。
早期的GPT-3.5只有4K token上下文 , 意味著對話稍長就會失憶 。
Claude 3推出了200K上下文 , GPT-4 Turbo跟進128K , Gemini 1.5 Pro更是號稱支持100萬token 。
但上下文長度只是理論值——真正考驗的是模型在長任務中能否保持一致性、專注度和執行力 。
Cursor團隊在實驗中發現了關鍵差異 。

在Cursor這篇官方博客中 , 團隊在實驗中發現了關鍵差異:
  • GPT-5.2 能長時間自主工作 , 遵循指令精準 , 保持專注不偏離;
  • Claude Opus 4.5 傾向盡早結束 , 走捷徑 , 頻繁把控制權交還給用戶;
  • GPT-5.1-Codex 雖專為編碼訓練 , 但規劃能力不如GPT-5.2 , 所以容易中斷 。
用更直白的話說:Opus像個急躁的實習生 , 干一會就想問「這樣行不行?我先交了哈」;

而GPT-5.2像個老練的高級工程師 , 交代清楚任務就埋頭干到底 。
這也是為什么Cursor官方宣稱:GPT-5.2是處理長期運行任務的前沿模型 。
不止瀏覽器 。
Cursor還透露了其他正在運行的實驗項目:JavaLSP、Windows 7模擬器和Excel克隆 。
數據都很夸張 , AI自己不停地寫了55萬行代碼、120萬行代碼和160萬行代碼 。 (話說 , Excel代碼比Windows還多點 , 因吹斯?。 ?


多智能體系統協作
一個模型在一周內寫300萬行代碼 , 注意是不停的寫 , 沒有人類干預!
這顯然不是一個模型「單打獨斗」 , 怎么做到的?
Cursor團隊透露了他們的秘密武器:多智能體系統(Multi-Agent System) 。

最初 , 他們嘗試讓所有Agent平等協作 , 通過共享文件來同步狀態 。 結果發現:
Agent會持有鎖太久 , 或者干脆忘記釋放鎖 。 二十個Agent的速度下降到相當于兩三個Agent的有效吞吐量 。

這像極了人類團隊中常見的問題:會議太多、溝通成本高、責任邊界不清 。
最終有效的方案是分層架構:
  • 規劃者(Planners):持續探索代碼庫 , 創建任務 , 進行高層決策
  • 執行者(Workers):專注于完成具體任務 , 不關心全局 , 提交后繼續下一個
  • 評審(Agent):判斷每輪迭代是否合格 , 決定是否進入下一階段
這幾乎是人類軟件公司的組織架構:產品經理/架構師負責規劃 , 程序員負責執行 , QA負責評審 。
但區別在于——這是成百上千個Agent同時工作 。
Cursor團隊實現了上百個Agent可以在同一個代碼庫上協同工作數周 , 幾乎沒有代碼沖突 。
這意味著AI已經學會了人類團隊需要多年才能磨合出的協作默契 。

瀏覽器的「護城河」
比你想象的要深得多


如果聽到「不就是個顯示網頁的軟件嗎」這種評價 , 所有做過瀏覽器內核的工程師大概都會苦笑 。
在計算機科學的鄙視鏈里 , 手寫瀏覽器內核的難度 , 僅次于手寫一個操作系統 。
為了讓你對這300萬行代碼有個概念 , 我們需要看一眼谷歌的Chromium(Chrome的開源母體) 。
作為人類軟件工程的巔峰之一 , Chromium的代碼量早已突破3500萬行 。
它不僅僅是一個軟件 , 本質上已經是一個「偽裝成應用程序的操作系統」 。
GPT-5.2挑戰的究竟是什么?
首先是CSS的「混沌理論」 。
網頁排版從來不是簡單的堆積木 。
CSS標準里充滿了各種歷史遺留的怪癖、層疊規則(Cascade)和復雜的繼承邏輯 。
一位前火狐瀏覽器工程師曾打過比方:實現一個完美的CSS引擎 , 就像是在模擬一個物理法則隨心所欲變化的宇宙 。 你改動一個父元素的屬性 , 可能導致幾千個子元素的布局瞬間崩塌 。
其次是「虛擬機里的虛擬機」 。
這次AI不僅寫了界面 , 還寫了一個JS虛擬機 。
現代網頁跑的JavaScript代碼需要內存管理、垃圾回收(GC)和安全沙箱 。
稍微處理不好 , 網頁就會吃光你的內存 , 或者直接讓黑客穿透瀏覽器接管電腦 。
最要命的是 , 它選了Rust 。
Rust這門語言以「絕不妥協的安全」著稱 , 它的編譯器就像一位極度神經質的考官 。
人類工程師在寫業務邏輯時 , 往往要花一半的時間和編譯器「吵架」 , 處理借用檢查(BorrowChecker)和生命周期問題 。
AI不僅要懂業務 , 還得在幾百萬行代碼的規模下 , 讓這位「考官」挑不出毛病 。
能在七天內把這些硬骨頭啃下來 , 并且讓它們協同工作 , 這已經不是簡單的「寫得快」了 , 這意味機器開始具備了頂級的架構掌控力 。

當AI能夠「忍受孤獨」


但這則新聞真正的炸點 , 其實不在于瀏覽器本身 , 而在于那個「Uninterrupted」(無中斷) 。
這是AI進化的分水嶺 。
在此之前 , 我們熟悉的AI編程工具(比如早期的Copilot)的情況是:你寫個函數頭 , 它補全五行代碼;你發個指令 , 它生成一個腳本 。
它們的記憶是碎片化的 , 注意力是短暫的 。
一旦任務稍微復雜一點 , 比如「重構這個模塊」 , 它們往往會顧頭不顧尾 , 改了這頭壞了那頭 , 最后還得人來擦屁股 。
但這次不一樣 。 這是一次「長時任務」的勝利 。
這300萬行代碼分布在數千個文件里 。
當AI寫到第300萬行時 , 它必須依然「記得」第1行代碼里定下的架構規矩;
當渲染引擎和JS虛擬機打架時 , 它必須能回溯幾萬行代碼去尋找Bug的源頭 。
這168個小時里 , GPT-5.2肯定寫出過Bug 。
但它沒有停下來報錯等待人類投喂答案 , 而是自己讀取錯誤日志 , 自己調試 , 自己重構 , 然后繼續前行 。
這種「編寫-運行-修復」的自主閉環 , 曾經是我們人類工程師最引以為傲的護城河 。
現在 , 這條護城河被填平了 。
我們正在目睹AI從「聊天伴侶」向「數字勞工」的質變 。
以前我們指揮AI做「任務」 , 比如「寫個貪吃蛇」;
現在我們指揮AI做「項目」 , 比如「造個瀏覽器」 。

沉默的螺旋


雖然這個AI版瀏覽器的成熟度距離Chrome還有很長的路要走 , 但它證明了路徑的可行性 。
當算力可以轉化為極其復雜的工程實施能力時 , 軟件開發的邊際成本將趨近于零 。
這場實驗最令人震撼的 , 其實不是屏幕上那個渲染出的網頁 , 而是那個在后臺沉默運行了整整七天的進度條 。
它不眠不休 , 不急不躁 , 以每秒數千字符的速度構建著數字世界的基石 。
也許我們該重新審視「創造」的定義了 。
只有當工具開始獨自在深夜里解決問題時 , 我們才明白 , 它不再只是工具 , 而是我們的同行者 。

從澳洲大叔的「賽博黑工」
到AI長時任務
用5行代碼逼瘋硅谷的澳洲放羊大叔 , 其實只做了一件事情 , 就是讓AI不達目標不能停止 。

至于Prompt.md寫了什么命令 , 并不是重點 。
就像今天Cursor CEO搞的這個極限壓力測試一樣 , 目標就是造一個Chrome、造一個Windows、開發一個Excel , 只要沒完成目標 , AI就要一直運行下去 。回到最開始那個問題:
一個AI究竟能自己干多久?
物理上的答案是無窮 。 只要你有足夠的算力、穩定的基礎設施、清晰的任務定義 , AI可以無限運行下去 。
但更重要的是 , 這改變了軟件開發的經濟學 。
傳統軟件開發的主要成本是人力和時間 。
一個10人團隊開發一個復雜項目 , 可能需要6個月到數年 。 每個月的人力成本可能是幾十萬到上百萬 。
現在 , AI可以在一周內完成原本需要數月的工作 。
成本可能只是一些token費用 , Emad Mostaque(Stability AI前CEO)猜測Cursor瀏覽器項目可能消耗了約30億個token 。
他還有一個想法:用多少token能夠重寫一套Windows級別的操作系統?成本如何?

Token是越來越便宜的 , 就像之前的水和電 , 最終基于token的算力也會變得極其廉價 。
于是 , 軟件經濟學就被徹底顛覆 。 比如 , 軟件按照授權付費的方式恐怕要消失了 。
在2026年的今天 , 軟件開發正在經歷一場基因級別的變異 。
從前 , 代碼是人類一行一行敲出來的產物 。
未來 , 代碼可能只是人類意圖的自動展開:你描述你想要什么 , AI就能把它變成現實 。
一個模型能跑多久?
只要你需要 , 它就能跑下去 。
參考資料:
https://x.com/mntruell/status/2011562190286045552
https://x.com/leerob/status/2011565729838166269
https://cursor.com/cn/blog/scaling-agents

    推薦閱讀