小編精選 - 技術文章翻譯 · 07月04日

別被模型宣傳騙了，真實 Agent 任務一跑就知道

别被模型宣傳騙了，真實 Agent 任務一跑就知道

現在市面上能呼叫的模型確實越來越多了，各家都有自己的亮點和側重點，光看宣傳文件和跑分數據其實很難判斷哪個真正適合自己——尤其是當任務從單輪對話延伸到多步操作的時候，情況就更加複雜了。

所以我就想著，不如把幾個主流模型都拉出來實際跑一遍，看看它們真實表現到底如何，也好給自己找個手感。

測評說明： 本次並非嚴格意義上的 benchmark 評測，更像是一次圍繞單個長鏈路 Agent 任務的體驗觀察記錄，結果僅供參考，不構成對模型的全面定論。

本次測試使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。

這次測試任務是做一個「AI 網站聚合平台」的 HTML 單頁。核心觀察點有三個：

是否能連續呼叫工具完成任務
是否能穩定生成可執行頁面
頁面完成後是否會主動檢查和修復問題

全局採用 WorkBuddy Agent 工具，費用為 WorkBuddy 平台本次任務消耗估算，不代表官方 API 價格。

通用提示詞如下：

markdown 代碼解讀複製代碼請完成一個「AI 工具導航站」的完整開發任務，要求從需求理解到頁面生成、資料整理、程式碼實作、執行檢查、問題修復全部獨立完成。 
任務目標： 
製作一個完整可執行的 HTML 單頁網站，主題為「AI 工具導航站」。頁面用於展示不同類型的 AI 工具，適合做成網頁 Demo、課程資料或公眾號長圖。 
任務要求： 
1. 資訊收集 
連網搜尋並整理 20 個主流 AI 工具，涵蓋 AI 寫作、AI 編程、AI 圖片、AI 影片、AI 搜尋、AI 辦公等類別。每個工具需要包含：工具名稱、所屬公司、主要用途、適合人群、官網連結。 
2. 資料整理 
將工具按類別分組，整理成結構化資料。要求資訊準確，避免重複工具，國內外工具都要覆蓋。 
3. 頁面設計 
生成一個清爽、現代、科技感的 HTML 頁面。頁面需要包含頂部標題區、分類篩選區、工具卡片區、推薦工具區、對比表格區和總結說明區。 
4. 互動功能 
頁面需要支援按工具類別篩選、關鍵字搜尋、工具卡片展開詳情、返回頂部按鈕。 
5. 程式碼實作 
使用 HTML、CSS、JavaScript 單檔實現，不依賴後端。可以使用公開 CDN 圖示庫或輕量圖表庫，但頁面必須能直接執行。 
6. 執行與檢查 
完成後請自行檢查頁面是否存在程式碼錯誤、樣式錯亂、按鈕無效、連結缺失、篩選失敗等問題。如果發現問題，請主動修復。 
7. 輸出結果 
最終輸出完整可執行的 HTML 檔案內容，並附上簡短說明：用了哪些資料來源、頁面包含哪些模組、有哪些互動功能。 
特別要求： 
請盡量一次性完成整個任務。過程中如果需要呼叫搜尋、網頁讀取、程式碼生成、檔案修改、執行檢查、錯誤修復等工具，請按合理順序連續完成，不要跳步。最終結果以可執行頁面為準。

MiniMax-M3

MiniMax-M3 在這類長鏈路任務裡表現比較穩定。

基本上會主動進行多輪工具呼叫，包括搜尋資料、整理資料、生成頁面程式碼、檢查檔案、修復問題等。整個過程比較像一個正常工作的 Agent，不會只停留在「給一段程式碼」的層面。

測試過程中，工具呼叫失敗機率很小，但也不是完全沒有。我這裡有一次工具呼叫失敗，不過沒有影響最後的結果生成。模型會繼續往下執行，並把頁面做出來。

這個是製作完成後的頁面效果。

從最終頁面來看，MiniMax-M3 的資料完整度、頁面結構和互動功能都比較完整。它沒有特別追求視覺上的炫酷，但勝在流程穩定，任務理解也比較清楚。

Workbuddy 裡面消耗積分：27 點積分左右。

換算一下差不多在 1.33 元左右。

如果按 API 單價估算，MiniMax-M3 屬於中低成本模型，適合反覆跑 Agent 流程類任務。

經過多次測試，MiniMax-M3 的任務製作完成率為 100% ，工具成功呼叫率約為 98% 。有少部分工具呼叫失敗，但沒有影響最後結果生成。

簡單來說，MiniMax-M3 的優勢是穩定、便宜、能跑完。適合做批量頁面生成、資料整理、程式碼初稿、輕量級 Agent 任務。

說到便宜，下面測試一下最便宜的大模型 deepseek-v4-flash 看看效果怎麼樣。

DeepSeek-V4-flash

同樣的提示詞，我又測試了 DeepSeek-V4-flash。

DeepSeek-V4-flash 的整體速度比較快，回應也很乾脆。它在理解需求、拆分頁面模組、生成 HTML 結構這幾個環節表現不錯。

不過在長鏈路工具呼叫裡，它的風格會更偏「快速完成任務」。也就是說，它會很快把程式碼生成出來，但在資料搜尋、資料校驗、細節修復方面，沒有 MiniMax-M3 和 Step-3.7-flash 那麼細。

從結果來看，頁面是可以正常完成的，基礎模組也都有。比如分類、卡片、搜尋、詳情、表格這些功能都能覆蓋到。

DeepSeek-V4-flash 比較適合對速度敏感的任務。如果你只是想快速得到一個能跑的 HTML Demo，它的效率很高。

但如果任務要求包含大量資料核對、頁面細節打磨、多次執行修復，它有時需要人工提醒一下。比如讓它再檢查一次連結、再優化一下樣式、再補充資料欄位。

Workbuddy 裡面消耗積分：4 點積分左右。換算一下差不多為 0.2 元左右。

從價格體感來看，DeepSeek-V4-flash 的成本優勢明顯，適合高頻呼叫。

經過多次測試，DeepSeek-V4-flash 的任務製作完成率約為 100%。工具呼叫成功率為 99%。

我的感受是，DeepSeek-V4-flash 很適合「快速生成 + 人工稍微檢查」的工作流。速度和成本很好，但長鏈路 Agent 的細節穩定性還需要看具體平台的工具環境。

Step-3.7-flash

Step-3.7-flash 是這次測試裡比較符合「生產級 Agent」定位的模型。

它在多工具呼叫上的積極性比較高，會連續完成搜尋、讀取、整理、生成、修改和檢查。整個過程更像是在完整執行一個任務，而不是簡單回答問題。

頁面效果是典型的深色科技風。

AI 很喜歡這種配色，如果沒有特別說明，很多模型都會預設生成深色系的網站頁面。這不能說不好，只是如果你想要清爽、明亮、偏公眾號長圖風格的頁面，提示詞裡最好提前寫清楚。

Step-3.7-flash 在資料整理方面表現比較突出。AI 工具資料比較全，分類也比較清楚。它會盡量涵蓋寫作、編程、圖片、影片、搜尋、辦公等不同類別，而不是只列幾個常見工具。

從頁面完成度來看，Step-3.7-flash 的內容密度最高。它會盡量把任務要求裡的模組都補上，包括頂部標題區、分類篩選、工具卡片、推薦工具、對比表格和總結說明。

本輪測試費用約為：0.7 元左右

從單價來看，Step-3.7-flash 價格屬於中等偏下選手，它的優勢不在低價，而在「能連續跑、少中斷、完成率高」。

經過多次測試，Step-3.7-flash 的任務製作完成率約為 100%，工具成功呼叫率約為 99%。

如果你的任務是高頻、多輪、低延遲，並且包含搜尋、檔案、程式碼、修復等工具鏈路，Step-3.7-flash 是比較值得放進候選列表的模型。

GLM5.2

然後我們來看看 GLM5.2 生成的效果。

GLM5.2 在程式碼生成和頁面結構上表現不錯。它能理解這個任務需要一個完整的 AI 工具導航站，也能把頁面模組拆得比較清楚。

從結果來看，頁面整體完成度是可以的。分類、卡片、搜尋、說明區這些內容都有覆蓋。

GLM5.2 的特點是能力比較均衡。在 Agent 任務中可以正常發揮模型實力，最大的缺點就是太貴。

本輪測試費用約為：74 點積分左右。換算一下，差不多在 3.66 元左右。

最後再測試一個國外的模型 Gemini3.5 flash，看看效果怎麼樣。

Gemini3.5 flash

如果是做前端頁面的話，Gemini 的美感一直比較在線。所以這裡我使用了 Gemini3.5 flash 模型。

下面是製作的 AI 工具導航網頁效果。

Gemini3.5 flash 最大的優勢是頁面觀感舒適。

它生成的前端頁面會更精緻，布局更舒服，留白和層次感也更好。相比前面幾個模型，Gemini3.5 flash 會更懂一點前端設計。

![]()

不過 Gemini3.5 flash 也有明顯問題。

它在視覺表現上確實更好，但資料蒐集沒有前面的模型多。尤其是和 Step-3.7-flash 對比，Step 蒐集的資料更全，分類覆蓋更完整，工具呼叫也更積極。

本輪測試費用約為：9 元左右。

Gemini3.5 flash 的價格明顯更貴，尤其是輸出 token 較多、帶工具呼叫、帶程式碼生成的任務，費用會比國產 Flash 檔模型高不少。

如果你對頁面要求比較高，可以試試 Gemini3.5 flash。它適合做展示頁、官網 Demo、產品介紹頁、課程資料頁。但如果你更關心成本和高頻呼叫，還是要謹慎一些。

測試結果對比

模型任務完成率工具成功呼叫率本輪費用主要優勢主要不足MiniMax-M3100%約 98%約 1.33 元穩定、成本低、能跑完整流程頁面美感中規中矩，視覺衝擊力一般DeepSeek-V4-flash100%約 99%約 0.2 元速度快、成本低，適合快速出初稿細節檢查和頁面打磨有時需要人工提醒Step-3.7-flash100%約 99%約 0.7 元工具呼叫積極，資料覆蓋完整，長鏈路執行感強頁面容易預設生成深色科技風，需要提前限定風格GLM5.2100%約 97%約 3.66 元綜合能力均衡，頁面結構和程式碼完成度不錯主動搜尋、核對和修復的執行感不算最強Gemini3.5 flash100%約 96%約 9 元頁面美感最好，布局、留白和視覺層次更成熟成本明顯更高，資料蒐集和工具呼叫積極性不如 Step-3.7-flash總結

這次測試下來，我更關注的不是單輪回答能力，而是模型能不能把一個真實任務從頭跑到尾。

如果只看頁面美觀，Gemini3.5 flash 的確更強。它生成的網頁更像一個成品 Demo，視覺上會舒服一些。

如果看工具呼叫和資料完整度，Step-3.7-flash 的表現更突出。它會更主動地搜尋、整理、生成和檢查，適合長鏈路 Agent 任務。

如果看成本和穩定性，MiniMax-M3 是一個很穩的選擇。它沒有特別花俏，但多次測試都能完成任務，工具呼叫失敗也不會明顯影響結果。

DeepSeek-V4-flash 的優勢是快和便宜，適合快速生成初稿。GLM5.2 則比較均衡，適合做綜合型任務。

所以模型選擇還是要看場景。

做展示型頁面，可以優先看 Gemini。做生產級 Agent 流程，可以重點看 Step-3.7-flash。做高頻低成本任務，可以看 MiniMax-M3 和 DeepSeek-V4-flash。

原文出處：https://juejin.cn/post/7658119907389554738

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 79瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝10 💬2 ❤️5

280

🥈

我愛JS

📝2 💬6 ❤️3

112

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次