AI編程反直覺調研引300萬圍觀!開發者堅信提速20%,實測反慢19%

AI編程反直覺調研引300萬圍觀!開發者堅信提速20%,實測反慢19%

文章圖片

AI編程反直覺調研引300萬圍觀!開發者堅信提速20%,實測反慢19%

文章圖片

AI編程反直覺調研引300萬圍觀!開發者堅信提速20%,實測反慢19%

文章圖片

AI編程反直覺調研引300萬圍觀!開發者堅信提速20%,實測反慢19%

文章圖片

AI編程反直覺調研引300萬圍觀!開發者堅信提速20%,實測反慢19%

文章圖片

AI編程反直覺調研引300萬圍觀!開發者堅信提速20%,實測反慢19%
機器之心報道
編輯:杜偉


隨著大模型的崛起 , AI編程領域正在發生翻天覆地的變化 。
各種編程大模型、編程工具涌現 , 通過自動補全代碼、自動 debug 等實用的功能為開發者的日常工作提供極大便利 , 并在一定程度上提升了開發效率 。


不過 , 問題來了 , AI 編程工具帶來的影響真是如此嗎?


近日 , 一家非營利性 AI 調研機構「METR」進行了一項隨機對照實驗 , 旨在了解 AI 編程工具如何加速經驗豐富的開源開發者的工作效率 。


結果卻是非常令人意外:開發者本來堅信使用使用 AI 工具后速度可以提升 20% , 但實際上速度卻比沒有使用 AI 工具時慢了 19% 。 這一結論在社交媒體 X 上爆了 , 閱讀量幾乎要突破 300 萬 。





如下圖所示:與專家預測和開發者本來的直覺相反 , 2025 年初的 AI 編程工具將減緩經驗豐富的開發者的開發速度 。 在本次隨機對照實驗中 , 16 位擁有中等 AI 編程經驗的開發者完成了 246 項大型復雜項目的任務 , 他們平均擁有 5 年開發經驗 。





對于這項調研 , 網友反應不一 。 有人感同身受 , 表示贊同 。





有人則對 METR 的測量指標產生了質疑 , 表示「完成任務的時間」不能與「生產力」劃等號 , 并且中等 AI 經驗與復雜項目測試同樣是糟糕的設置 。





「應該調研普通人(非開發者)使用 AI 編寫軟件的速度快了多少」 , 也有人提出了這樣的建議 。





研究動機


雖然編碼 / 智能體基準測試已被證明有助于理解 AI 能力 , 但它們通常為了規模和效率而犧牲了真實性 —— 這些任務自成一體 , 不需要理解先前的上下文 , 并且使用算法評估 , 無法捕捉許多重要的能力 。 這些特性可能導致基準測試高估了 AI 的能力 。


另一方面 , 由于基準測試是在沒有真人實時交互的情況下運行的 , 模型可能盡管取得了實質性進展卻未能完成任務 , 比如一些在真實場景中人類會輕松修復的小瓶頸 。 總的來說 , 直接將基準測試分數轉化為現實世界的影響是困難的 。


METR 表示 , 評估 AI 對軟件開發人員生產力的影響 , 可以為基準測試提供補充證據 , 有助于了解 AI 對 AI 研發加速的整體影響 。


方法、結果與原因分析


為了直接測量 AI 工具在軟件開發中的現實影響力 , METR 招募了 16 位經驗豐富的開發者 , 他們來自大型開源倉庫(平均擁有 22k+star 和 100 萬 + 行代碼) , 并已貢獻多年 。


這些開發者提供了他們認為對倉庫有價值的真實問題列表(總計 246 個)—— 即通常屬于他們日常工作范疇的 bug 修復、功能開發和重構任務 。


接下來 , METR 隨機分配每個問題 , 允許或禁止開發者在處理該問題時使用 AI 。 當允許使用 AI 時 , 開發者可以選擇他們喜歡的任何工具(研究期間主要使用 Cursor Pro 搭配 Claude 3.5/3.7 Sonnet) 。


當禁止使用時 , 他們則在沒有生成式 AI 輔助的情況下工作 。 開發者在完成任務(平均每個耗時約兩小時)時錄屏 , 并自行報告完成所需的全部時間 。


當然 , METR 按每小時 150 美元(約合人民幣 1080 元 / 小時)的標準向開發者支付參與研究的報酬 。





結果顯示:當開發者被允許使用 AI 工具時 , 他們解決問題所需的時間反而增加了 19%—— 這一顯著的效率下降與專家預測以及開發者的感知背道而馳 。


這種感知與現實之間的差距令人震驚:開發者預期 AI 能將其速度提升 24% , 即使在經歷了效率下降之后 , 他們仍然相信 AI 可以為他們提速 20% 。


下文展示了開發者預測的平均時間和實際觀察到的實現時間 。 我們可以清晰地看到 , 當開發者被允許使用 AI 工具時 , 他們花費的時間明顯更長 。





當允許使用 AI 時 , 開發者在主動編碼和查找信息上的時間減少了 , 取而代之的是花更多時間撰寫提示詞、等待或審查 AI 輸出 , 以及處于空閑狀態 。 METR 發現 , 開發進度的放緩并不是單一原因 , 而是由多種因素共同導致的 。





為了更好地理解這些因素 , METR 考察了實驗環境中的 20 項屬性 , 發現其中有 5 項很可能是造成開發速度放緩的原因 , 另外有 8 項則表現出混合或不明確的影響 。


過程中 , METR 排除了許多實驗干擾因素 , 比如開發者使用了前沿模型、遵守了處理分配規則、沒有選擇性地放棄問題(例如放棄困難的不使用 AI 任務從而降低不使用 AI 組的平均難度) , 并且在使用和不使用 AI 的情況下都提交了質量相近的 PR(Pull Request) 。


結果發現:無論是采用不同的結果指標、估計方法 , 還是對數據進行各種子集 / 子分析 , 開發速度的放緩現象依然存在 。





更詳細的調研結果請參考原論文:





  • 論文標題:Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
  • 論文地址:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf


局限性與未來展望


此次調研得出了兩個重要結論 , 分別是:


  • 在某些重要場景下 , 近期的 AI 工具有可能并未提升生產力 , 甚至可能導致效率下降 。
  • 關于效率提升的自我報告并不可靠 —— 要真正理解 AI 對生產力的影響 , 我們需要真實環境中的實驗數據 。


不過 , METR 也表示 , 他們的設置并沒有代表所有(甚至可能是大多數)軟件工程 , 同時聲明當前的模型也能更有效地利用起來 , 未來的模型可能會變得更好 。





當然 , 沒有哪種測量方法是完美的 —— 人們希望 AI 系統完成的任務是多樣、復雜且難以嚴格研究的 。 各種方法之間存在有意義的權衡 , 繼續開發和使用多樣化的評估方法以更全面地描繪 AI 的現狀和未來發展方向 , 將至關重要 。
未來 , METR 期待運行類似的 AI 調研 , 以追蹤 AI 帶來的加速(或減速)趨勢 , 這類評估方法可能比基準測試更難被「玩弄」 。
博客地址:https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/


【AI編程反直覺調研引300萬圍觀!開發者堅信提速20%,實測反慢19%】


    推薦閱讀