小編精選 - 技術文章翻譯 · 03月04日

行動端開發穩了？ AI 目前還無法取代客戶端開發，小紅書的論文告訴你資料

移動端開發穩了？AI 目前還無法取代客戶端開發，小紅書的論文告訴你數據

近期，由小紅書聯合多倫多大學等高校的研究人員發布了《SWE-Bench Mobile》（2602.09540）論文，內容主要是評估 LLM 智能體在處理真實生產級移動端應用開發任務時的能力，並提出了首個針對該領域的基準測試——SWE-Bench Mobile。

這個論文對比之前那些簡單的需求場景，明顯更具備說服力，最重要的是，用真實的數據給目前的 AI 狂熱澆一澆冷水。

目前的程式設計基準測試大多集中在孤立的演算法問題，而 SWE-Bench 則是關注 GitHub 上的 Bug 修復，然而真實的工業級移動端開發更為複雜：

多模態輸入：開發者需要根據產品需求文檔（PRD）和 Figma 設計稿等來寫程式
複雜的工程環境：中大廠的移動端代碼庫通常規模巨大（ 5GB 以上），且涉及 Swift 與 Objective-C 混編、特定系統 API 及複雜的 UI 互動，還有編譯環境影響
任務類型多樣化：不限於 Bug 修復，更多是功能開發和 UI 增強

所以研究團隊從目前小紅書自己的真實產品流水線中提取了 50 個具有代表性的開發任務，構建了該基準測試：

數據集組成 ：
- 50 個真實任務：源自實際的產品需求
- 449 个人工验证的測試用例：平均每個任務 9.1 個測試點，用於評估功能正確性
- 多模態支持：70% 的任務附帶 Figma 設計連結，92% 附帶參考圖
代碼庫規模：基於約 5GB 大小的真實 iOS 生產代碼庫（Swift/Objective-C）
任務複雜度：平均每個任務涉及修改 4.2 個文件，遠超之前的基準測試

整個基準的規則是：

每個任務包含：

對於任務的兩個關鍵指標：

而對於 LLM，論文評估了 22 種 不同的“智能體-模型”配置，涵蓋了四個主流框架：

評估維度包括：任務完成率、任務複雜度影響、成本效果比較、多次運行穩定性、Prompt 設計影響等。

而根據論文可以得出結論：當前 AI 在生產級的軟體工程力存在巨大局限性：

成功率極低 ：表現最好配置的成功率僅為 12% ，大多數任務以“實現不完整”告終，但測試通過率最高可到 28%，說明部分任務可以部分正確生成，但沒能完全部署成功
智能體架構十分重要 ：同一個底層模型，在 Cursor 框架下的成功率為 12%，但在 OpenCode 下僅為 2%，智能體的工具調用、上下文管理等設計與模型本身同等重要
商業模型佔優：商業閉源智能體在處理大型代碼庫時的穩定性和正確性顯著優於開源方案
複雜度陷阱：任務涉及 1-2 個文件時成功率為 18%，但當涉及 7 個以上文件時，成功率驟降至 2% ，顯示出模型在跨文件長程推理方面的短板
“防禦性編程”提示詞更有效：研究發現，使用基於“防禦性編程”（原則的簡潔提示詞，比複雜的提示詞能讓成功率提升 7.4%）