這是AI領域最容易被誤解的一張圖表

這是AI領域最容易被誤解的一張圖表

文章圖片


(來源:麻省理工科技評論)

每當 OpenAI、Google 或 Anthropic 推出新一代前沿大語言模型 , AI 領域的從業者都會翹首以盼 。 大家會一直等待 METR 更新那張如今極具標志性的圖表 , 這份期待才會落下 。

METR 是一家人工智能研究非營利機構 , 機構名稱的英文全稱是 Model EvaluationThreat Research , 即模型評估與威脅研究 。 這張圖表自去年 3 月首次發布以來 , 就在人工智能領域的相關探討中占據重要地位 。 圖表顯示 , 人工智能的部分能力正呈指數級發展 , 而近期推出的模型 , 其表現更是超越了這一本就令人矚目的發展趨勢 。

Anthropic 旗下性能最強的模型最新版本 Claude Opus 4.5 就是典型案例 , 該模型于 11 月末正式推出 。 12 月 , METR 發布公告稱 , 這款模型似乎能獨立完成一項人類需要約 5 小時才能完成的任務 。 這一表現即便以指數級發展趨勢來預判 , 也實現了大幅突破 。 Anthropic 的一名安全研究人員在推特上表示 , 基于這一研究結果 , 他將調整自己的研究方向 。 該公司的另一名員工則直白地發推稱:“媽媽快來接我 , 我害怕了 。 ”

(來源:METR.ORG)

但實際情況遠比這些夸張的反應所呈現的復雜 。 一方面 , METR 對特定模型能力的評估結果存在較大的誤差范圍 。 METR 曾在 X 平臺明確表示 , Claude Opus 4.5 或許只能穩定完成人類約 2 小時能做完的任務 , 也可能能成功完成人類耗時長達 20 小時的任務 。 受研究方法本身存在的不確定性影響 , 目前無法得出確切結論 。

METR 的技術人員西德妮?馮?阿克斯(Sydney Von Arx)表示:“人們對這張圖表的過度解讀體現在多個方面 。 ”

更重要的一點是 , 這張由 METR 制作的圖表并非對人工智能的綜合能力進行測算 , 該機構也從未宣稱過這一點 。 為制作這張圖表 , METR 主要以編程任務為測試基準對模型進行評估 , 通過測算或預估人類完成每項任務的耗時來判定任務難度 。 這一評估標準并未獲得所有人的認可 。

換句話說 , Claude Opus 4.5 能完成人類耗時 5 小時的特定任務 , 并不代表它已接近取代人類工作者的水平 。

METR 成立的初衷是評估前沿人工智能系統帶來的風險 。 盡管該機構因這張指數級發展趨勢圖表聲名遠揚 , 但它也與多家人工智能企業合作 , 對企業的系統開展更詳盡的評估 , 同時還發布了多項獨立研究成果 。 其中 2025 年 7 月發布的一項研究引發了廣泛關注 , 該研究指出 , 人工智能編程助手實際上可能會降低軟件工程師的工作效率 。

這張指數級發展趨勢圖表為 METR 打響了知名度 , 而該機構對于這張圖表所引發的一眾狂熱解讀 , 似乎有著復雜的態度 。 今年 1 月 , 該圖表相關論文的主要作者之一托馬斯?奎瓦(Thomas Kwa)發布了一篇博文 , 回應了外界的部分質疑 , 并明確指出了圖表的局限性 。 目前 METR 正著手撰寫一份更詳盡的常見問題解答文檔 。 但奎瓦并不認為這些努力能從根本上改變外界的解讀方式 。 他表示:“我認為無論我們做什么 , 那些鼓吹炒作的聲音終究會忽略所有的前提條件和注意事項 。 ”

盡管如此 , METR 的研究團隊仍認為 , 這張圖表能為人工智能的發展軌跡提供有價值的參考 。 阿克斯說:“任何人都絕不能把自身發展的決策依據完全寄托在這張圖表上 。 ” 她接著補充道:“但我敢肯定 , 這一發展趨勢會持續下去 。 ”

這張 METR 圖表之所以容易引發誤解 , 部分原因在于它的實際內涵遠比表面看起來復雜 。 圖表的橫軸設計十分簡潔 , 用于標注各個人工智能模型的發布日期 。 但縱軸的設計卻暗藏門道 , 其作用是記錄各模型的時間跨度 。 這是 METR 獨創的一項特殊評估指標 , 奎瓦和阿克斯均表示 , 這一指標一直被外界誤解 。

想要準確理解模型時間跨度的含義 , 了解 METR 測算這一指標的全過程會有所幫助 。 首先 , METR 的研究團隊整理了一系列測試任務 , 這些任務涵蓋快速選擇題和復雜的編程挑戰 , 且均與軟件工程領域相關 。 隨后 , 該團隊讓人類程序員嘗試完成其中大部分任務 , 并統計他們的完成耗時 , 以此為每項任務設定人類完成的基準時間 。 部分任務讓專業程序員完成僅需數秒 , 而有些任務則需要耗時數小時 。

METR 讓大語言模型完成這一系列測試任務后發現 , 先進的模型能輕松完成那些人類耗時短的任務 。 但隨著模型嘗試的任務所需的人類完成時間不斷增加 , 模型的任務完成準確率會開始下降 。 研究人員會根據模型的表現 , 在人類任務耗時的時間尺度上 , 找到模型能成功完成約 50% 任務的臨界點 , 這一臨界點就是該模型的時間跨度 。

這些詳細的測算過程 , 都記錄在 METR 發布首張時間跨度圖時同步推出的博文和學術論文中 。 但這張圖表在社交媒體上傳播時 , 往往缺少這些背景信息 , 時間跨度這一指標的真正含義也因此被曲解 。 其中一種常見的誤讀是 , 將圖表縱軸的數值理解為模型能獨立運行的時長 , 比如 Claude Opus 4.5 對應的約 5 小時 。 但事實并非如此 , 這些數值代表的是 , 模型能成功完成的任務所需的人類完成耗時 。 奎瓦發現這一誤讀現象極為普遍 , 因此他在近期發布的博文開頭就專門對此進行了糾正 。 當被問及會為網絡上傳播的圖表版本補充哪些信息時 , 他表示會在所有提及任務完成耗時的地方 , 都加上 “人類” 這個關鍵詞 。

盡管時間跨度的概念較為復雜 , 且一直被外界廣泛誤讀 , 但這一概念本身具備基礎的參考價值 。 時間跨度為 1 小時的模型 , 能將軟件工程師部分簡單的工作實現自動化;而時間跨度為 40 小時的模型 , 理論上能獨立完成數天的工作 。 但有部分專家對將人類的任務完成耗時作為量化人工智能能力的有效指標提出了質疑 。 加州大學伯克利分校的模型評估方向博士生伊尼奧盧瓦?德博拉?拉吉(Inioluwa Deborah Raji)表示:“我并不認為 , 一項任務的完成耗時更長 , 就必然意味著這項任務的難度更高 , 這并非既定事實 。 ”

阿克斯表示 , 她最初也對將時間跨度作為評估指標的合理性持懷疑態度 。 而她和同事的分析結果 , 讓她改變了這一看法 。 研究團隊測算出 2025 年初市面上所有主流模型的 50% 任務完成時間跨度后 , 將這些數據繪制成圖表 , 發現頭部模型的時間跨度正隨著時間推移不斷增加 , 且提升速度還在加快 。 這些模型的時間跨度大約每 7 個月就會翻倍 , 這意味著 , 2020 年年中 , 最先進的模型能完成人類耗時 9 秒的任務;2023 年初 , 能完成人類耗時 4 分鐘的任務;2024 年末 , 能完成人類耗時 40 分鐘的任務 。 阿克斯說:“我可以從理論層面反復探討這一指標是否合理 , 但實實在在的發展趨勢就擺在那里 。 ”

正是這一極具沖擊力的發展趨勢 , 讓這張 METR 圖表成為了人工智能領域的爆款 。 很多人都是通過《AI 2027》了解到這張圖表的 , 這篇爆紅的內容融合了科幻故事與量化預測 , 提出超級人工智能可能會在 2030 年滅絕人類的觀點 。 《AI 2027》的作者將這張 METR 圖表作為部分預測的依據 , 并在內容中大量引用 。 用阿克斯的話來說:“當大多數人通過這種主觀性極強的解讀方式了解到你的研究成果時 , 會讓人感覺有些別扭 。 ”

當然 , 也有很多人引用這張 METR 圖表時 , 并未聯想到大規模的人類滅絕與災難 。 在部分人工智能領域的支持者看來 , 這一指數級發展趨勢預示著 , 人工智能將很快引領人類進入經濟高速增長的新時代 。 例如 , 風險投資公司紅杉資本近期發布了一篇題為《2026 年:通用人工智能時代來臨》的文章 , 該文以這張 METR 圖表為依據 , 認為能勝任員工或外包工作者角色的人工智能即將出現 。 這篇文章的作者之一、紅杉資本普通合伙人索尼婭?黃(Sonya Huang)表示:“我們撰寫這篇文章的初衷 , 其實是想引發大家的思考:當你的發展規劃以百年為時間尺度時 , 你會作何選擇?”

但模型在 METR 圖表中實現了 1 小時的時間跨度 , 并不代表它能在現實工作中取代人類 1 小時的工作量 。 一方面 , 用于評估模型的這些任務 , 無法反映出實際工作中的復雜性和不確定性 。 在最初的研究中 , 奎瓦、阿克斯及其同事提出了任務 “復雜程度” 的量化評估標準 , 評估維度包括模型是否明確知曉自身的評分規則、模型出現錯誤后是否能輕松重新開始任務 。 而對于高復雜程度的任務 , 模型在這兩個維度的答案均為否 。 研究團隊發現 , 模型在完成高復雜程度任務時 , 表現會明顯變差 , 不過無論是高復雜程度還是低復雜程度的任務 , 模型的整體表現都呈提升趨勢 。

即便 METR 設定的最高復雜程度的任務 , 也無法充分反映出人工智能勝任大部分工作的能力 , 因為這張圖表的評估依據幾乎全部是編程任務 。 伊利諾伊大學厄巴納 - 香檳分校的計算機科學助理教授丹尼爾?康(Daniel Kang)表示:“模型的編程能力可以不斷提升 , 但并不會憑空掌握其他領域的技能 。 ” 奎瓦及其同事在后續研究中發現 , 人工智能在其他領域任務中的時間跨度同樣呈現指數級增長趨勢 , 但這項后續研究的規范性遠不及最初的研究 。

盡管存在這些局限性 , 仍有不少專業人士認可 METR 的這項研究 。 康表示:“在該領域的現有研究中 , METR 的這項研究是設計最為嚴謹的研究之一 。 ” 就連紐約大學前教授、長期對大語言模型持批判態度的加里?馬庫斯(Gary Marcus) , 也在博文中稱 , 為制作這張圖表開展的大部分研究工作都堪稱出色 。

可以肯定的是 , 仍會有部分人將這張 METR 圖表解讀為人工智能引發人類末日的預言 , 但實際上它的本質十分樸素:這是一個經過精心設計的科學工具 , 將人們對人工智能發展的直觀感受轉化為了具體的數值 。 METR 的工作人員也坦言 , 這張圖表絕非完美的評估工具 。 但在人工智能這一新興且發展迅猛的領域 , 即便不夠完美的工具 , 也能具備巨大的參考價值 。

阿克斯表示:“一群研究人員在重重限制下 , 盡最大努力打造出了這一評估指標 。 它在很多方面都存在明顯的缺陷 , 但我依然認為 , 它是同類型工具中最出色的之一 。 ”

原文鏈接:
【這是AI領域最容易被誤解的一張圖表】https://www.technologyreview.com/2026/02/05/1132254/this-is-the-most-misunderstood-graph-in-ai/

    推薦閱讀