標題:“開發者認為人工智慧讓他們速度提升了24%,但資料顯示速度卻降低了19%。”
已發布:是
描述:“開發者預測人工智慧能讓他們的工作效率提升 24%。但實際上,他們的效率反而降低了 19%。問題不在於人工智慧本身,而在於我們把注意力放在哪裡。”
標籤:人工智慧、測試、討論、程式碼質量
封面圖:https://dev-to-uploads.s3.amazonaws.com/uploads/articles/u8azm9pm0e17w2pztpov.png
上個月,METR 發布了一項研究,這項研究應該會讓所有開發者感到不安。
他們挑選了 16 位經驗豐富的開源開發者——他們對自己的程式碼庫瞭如指掌——並隨機分配任務,讓他們使用或不使用 AI 工具來完成。
| | 預測 | 測量 | 研究後想法 |
|---|---|---|---|
| 速度影響 |速度提升 24% |速度降低 19% | 「這對我很有幫助」 |
我使用人工智慧編碼工具已經將近一年了。當我讀到那篇研究報告時,我的第一個反應是「嗯,那些開發者肯定是哪裡做錯了」。我的第二個反應是:這不正是那篇研究報告所警告的那種思考方式嗎?
速度資料固然引人注目,但我認為最重要的發現是感知上的差距。我們感覺速度更快,是因為人工智慧處理了那些枯燥乏味的部分——樣板程式碼、文法,以及那些看似繁瑣實則並非真正難點的部分。同時,真正困難的部分變得更加棘手:理解人工智慧修改了什麼、驗證其正確性、以及記住那些並非自己寫的程式碼。
Simon Willison——Datasette 的創辦人,也是我所知的最多產的 AI 輔助開發者之一——寫下的一段話讓我印象深刻:
“我對我的專案能做什麼以及它們是如何運作的,已經沒有清晰的認識了。”
這位開發者已經利用人工智慧輔助開發了 80 多個工具。如果他在理解思考模型方面遇到困難,那麼問題可能並不在於經驗層面。
我現在是這樣想的:
Before AI: Think → Write → Test → Debug
With AI: Describe → Review → Verify → Debug AI → Debug your understanding
編寫程式碼的成本降低了,其他所有環節的成本都增加了。 「審查自己沒寫過的程式碼」在認知上比「寫自己能理解的程式碼」要難得多——任何做過程式碼審查的人都知道這一點。
「人工智慧把我們都變成了傑夫·貝佐斯——自動化了簡單的工作,留下了所有艱難的決策。」——史蒂夫·耶格
METR 的研究基本上證實了我們許多人一直以來的感受,但卻不願承認:人工智慧編碼工具並不能節省時間。充其量,它們只是重新分配了你的注意力。最糟糕的是,它們創造了一種生產力提升的假象,但實際上卻增加了認知負荷。
我不再追求速度,而是開始問自己: “我的注意力都集中在哪裡?”
在使用任何人工智慧工具之前,我都會先用純文字寫下我想要什麼、為什麼想要以及「完成」的標準是什麼。這不是給人工智慧看的,而是給我自己看的。這需要5到10分鐘,但卻是我一天中最有意義的事情,因為它迫使我在生成結果之前先思考。
肯特·貝克將此稱為「增強型編碼」和「直覺型編碼」之間的區別。後者是指寄望人工智慧能產生可運作的程式碼。前者是指在人工智慧編寫程式碼之前,就已經知道可執行的程式碼應該是什麼樣子。
我以前總覺得程式碼審查是完成真正工作之後才做的苦差事。現在,它本身就是真正的工作。 StrongDM 團隊把這種理念發揮到了極致——他們的「黑暗工廠」模式完全不進行人工程式碼審查。所有投入都用於測試、工具和模擬。人類負責定義什麼是正確的程式碼,其他一切都由機器完成。
我還沒達到目標,但方向很明確:我的價值不在於編寫程式碼,而是定義「正確」在我的特定脈絡下意味著什麼。
程式碼行數越多,生產力並不高。提交的 PR 越多,生產力也不高。 Harness 2025 的調查發現, 67% 的開發者花在除錯 AI 產生的程式碼上的時間比他們自己編寫程式碼的時間還要多。如果你也是其中之一,那麼更快地產生更多程式碼只會讓情況變得更糟,而不是更好。
我現在最關心的指標是:我把多少精力放在了只有我才能做的決策上?架構選擇、使用者導向的權衡取捨、「我們到底要不要開發這個」——這些都是人工智慧做不到的。至於其他的一切,我希望自動化,不是因為這樣速度更快,而是因為這樣可以騰出精力去解決真正棘手的問題。
如果 METR 的研究是正確的——如果人工智慧工具實際上並不能為經驗豐富的開發人員在熟悉的程式碼庫上節省時間——那麼人工智慧編碼的價值主張就不是「10 倍生產力」。它還有更微妙之處:
如果你有足夠的自律性,就能將注意力集中在更有影響力的工作上。
這比「更快地編寫程式碼」更難讓人接受。它要求你知道高影響力工作是什麼樣的,並且能夠抵制住觀看人工智慧在 3 秒內產生 200 行程式碼所帶來的多巴胺刺激。
我還沒完全弄清楚。有時候我還是會憑感覺寫程式碼,然後因為編譯通過就假裝輸出結果很好。 METR 研究的認知差距不僅存在於他們的參與者身上——它存在於我們所有人身上。
但至少現在,當我感覺自己利用人工智慧提高了工作效率時,我會停下來問自己:我真的提高了工作效率嗎,還是只是感覺如此?
原文出處:https://dev.to/matthewhou/the-metr-study-changed-how-i-think-about-ai-coding-4i84