AI編程反直覺調研引300萬圍觀！開發者堅信提速20%，實測反慢19%

2026-03-21 人工智能 ai it芯片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：杜偉

隨著大模型的崛起， AI編程領域正在發生翻天覆地的變化。
各種編程大模型、編程工具涌現，通過自動補全代碼、自動 debug 等實用的功能為開發者的日常工作提供極大便利，并在一定程度上提升了開發效率。

不過，問題來了， AI 編程工具帶來的影響真是如此嗎？

近日，一家非營利性 AI 調研機構「METR」進行了一項隨機對照實驗，旨在了解 AI 編程工具如何加速經驗豐富的開源開發者的工作效率。

結果卻是非常令人意外：開發者本來堅信使用使用 AI 工具后速度可以提升 20% ，但實際上速度卻比沒有使用 AI 工具時慢了 19% 。這一結論在社交媒體 X 上爆了，閱讀量幾乎要突破 300 萬。

如下圖所示：與專家預測和開發者本來的直覺相反， 2025 年初的 AI 編程工具將減緩經驗豐富的開發者的開發速度。在本次隨機對照實驗中， 16 位擁有中等 AI 編程經驗的開發者完成了 246 項大型復雜項目的任務，他們平均擁有 5 年開發經驗。

對于這項調研，網友反應不一。有人感同身受，表示贊同。

有人則對 METR 的測量指標產生了質疑，表示「完成任務的時間」不能與「生產力」劃等號，并且中等 AI 經驗與復雜項目測試同樣是糟糕的設置。

「應該調研普通人（非開發者）使用 AI 編寫軟件的速度快了多少」，也有人提出了這樣的建議。

研究動機

雖然編碼 / 智能體基準測試已被證明有助于理解 AI 能力，但它們通常為了規模和效率而犧牲了真實性 —— 這些任務自成一體，不需要理解先前的上下文，并且使用算法評估，無法捕捉許多重要的能力。這些特性可能導致基準測試高估了 AI 的能力。

另一方面，由于基準測試是在沒有真人實時交互的情況下運行的，模型可能盡管取得了實質性進展卻未能完成任務，比如一些在真實場景中人類會輕松修復的小瓶頸。總的來說，直接將基準測試分數轉化為現實世界的影響是困難的。

METR 表示，評估 AI 對軟件開發人員生產力的影響，可以為基準測試提供補充證據，有助于了解 AI 對 AI 研發加速的整體影響。

方法、結果與原因分析

為了直接測量 AI 工具在軟件開發中的現實影響力， METR 招募了 16 位經驗豐富的開發者，他們來自大型開源倉庫（平均擁有 22k+star 和 100 萬 + 行代碼），并已貢獻多年。

這些開發者提供了他們認為對倉庫有價值的真實問題列表（總計 246 個）—— 即通常屬于他們日常工作范疇的 bug 修復、功能開發和重構任務。

接下來， METR 隨機分配每個問題，允許或禁止開發者在處理該問題時使用 AI 。當允許使用 AI 時，開發者可以選擇他們喜歡的任何工具（研究期間主要使用 Cursor Pro 搭配 Claude 3.5/3.7 Sonnet）。

當禁止使用時，他們則在沒有生成式 AI 輔助的情況下工作。開發者在完成任務（平均每個耗時約兩小時）時錄屏，并自行報告完成所需的全部時間。

當然， METR 按每小時 150 美元（約合人民幣 1080 元 / 小時）的標準向開發者支付參與研究的報酬。

結果顯示：當開發者被允許使用 AI 工具時，他們解決問題所需的時間反而增加了 19%—— 這一顯著的效率下降與專家預測以及開發者的感知背道而馳。

這種感知與現實之間的差距令人震驚：開發者預期 AI 能將其速度提升 24% ，即使在經歷了效率下降之后，他們仍然相信 AI 可以為他們提速 20% 。

下文展示了開發者預測的平均時間和實際觀察到的實現時間。我們可以清晰地看到，當開發者被允許使用 AI 工具時，他們花費的時間明顯更長。

當允許使用 AI 時，開發者在主動編碼和查找信息上的時間減少了，取而代之的是花更多時間撰寫提示詞、等待或審查 AI 輸出，以及處于空閑狀態。 METR 發現，開發進度的放緩并不是單一原因，而是由多種因素共同導致的。

為了更好地理解這些因素， METR 考察了實驗環境中的 20 項屬性，發現其中有 5 項很可能是造成開發速度放緩的原因，另外有 8 項則表現出混合或不明確的影響。

過程中， METR 排除了許多實驗干擾因素，比如開發者使用了前沿模型、遵守了處理分配規則、沒有選擇性地放棄問題（例如放棄困難的不使用 AI 任務從而降低不使用 AI 組的平均難度），并且在使用和不使用 AI 的情況下都提交了質量相近的 PR（Pull Request）。

結果發現：無論是采用不同的結果指標、估計方法，還是對數據進行各種子集 / 子分析，開發速度的放緩現象依然存在。

更詳細的調研結果請參考原論文：

論文標題：Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
論文地址：https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

局限性與未來展望

此次調研得出了兩個重要結論，分別是：

在某些重要場景下，近期的 AI 工具有可能并未提升生產力，甚至可能導致效率下降。
關于效率提升的自我報告并不可靠 —— 要真正理解 AI 對生產力的影響，我們需要真實環境中的實驗數據。

不過， METR 也表示，他們的設置并沒有代表所有（甚至可能是大多數）軟件工程，同時聲明當前的模型也能更有效地利用起來，未來的模型可能會變得更好。

當然，沒有哪種測量方法是完美的 —— 人們希望 AI 系統完成的任務是多樣、復雜且難以嚴格研究的。各種方法之間存在有意義的權衡，繼續開發和使用多樣化的評估方法以更全面地描繪 AI 的現狀和未來發展方向，將至關重要。
未來， METR 期待運行類似的 AI 調研，以追蹤 AI 帶來的加速（或減速）趨勢，這類評估方法可能比基準測試更難被「玩弄」。
博客地址：https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

【AI編程反直覺調研引300萬圍觀！開發者堅信提速20%，實測反慢19%】

推薦閱讀

上一篇：ICML 2025 Oral！北大和騰訊優圖破解AI生成圖像檢測泛化難題

下一篇：DeepMind讓AI當「上帝」，導演一場只有AI演員的「西部世界」