現在市面上能呼叫的模型確實越來越多了,各家都有自己的亮點和側重點,光看宣傳文件和跑分數據其實很難判斷哪個真正適合自己——尤其是當任務從單輪對話延伸到多步操作的時候,情況就更加複雜了。
所以我就想著,不如把幾個主流模型都拉出來實際跑一遍,看看它們真實表現到底如何,也好給自己找個手感。
測評說明: 本次並非嚴格意義上的 benchmark 評測,更像是一次圍繞單個長鏈路 Agent 任務的體驗觀察記錄,結果僅供參考,不構成對模型的全面定論。
本次測試使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。
這次測試任務是做一個「AI 網站聚合平台」的 HTML 單頁。核心觀察點有三個:
全局採用 WorkBuddy Agent 工具,費用為 WorkBuddy 平台本次任務消耗估算,不代表官方 API 價格。
通用提示詞如下:
markdown 代碼解讀複製代碼請完成一個「AI 工具導航站」的完整開發任務,要求從需求理解到頁面生成、資料整理、程式碼實作、執行檢查、問題修復全部獨立完成。
任務目標:
製作一個完整可執行的 HTML 單頁網站,主題為「AI 工具導航站」。頁面用於展示不同類型的 AI 工具,適合做成網頁 Demo、課程資料或公眾號長圖。
任務要求:
1. 資訊收集
連網搜尋並整理 20 個主流 AI 工具,涵蓋 AI 寫作、AI 編程、AI 圖片、AI 影片、AI 搜尋、AI 辦公等類別。每個工具需要包含:工具名稱、所屬公司、主要用途、適合人群、官網連結。
2. 資料整理
將工具按類別分組,整理成結構化資料。要求資訊準確,避免重複工具,國內外工具都要覆蓋。
3. 頁面設計
生成一個清爽、現代、科技感的 HTML 頁面。頁面需要包含頂部標題區、分類篩選區、工具卡片區、推薦工具區、對比表格區和總結說明區。
4. 互動功能
頁面需要支援按工具類別篩選、關鍵字搜尋、工具卡片展開詳情、返回頂部按鈕。
5. 程式碼實作
使用 HTML、CSS、JavaScript 單檔實現,不依賴後端。可以使用公開 CDN 圖示庫或輕量圖表庫,但頁面必須能直接執行。
6. 執行與檢查
完成後請自行檢查頁面是否存在程式碼錯誤、樣式錯亂、按鈕無效、連結缺失、篩選失敗等問題。如果發現問題,請主動修復。
7. 輸出結果
最終輸出完整可執行的 HTML 檔案內容,並附上簡短說明:用了哪些資料來源、頁面包含哪些模組、有哪些互動功能。
特別要求:
請盡量一次性完成整個任務。過程中如果需要呼叫搜尋、網頁讀取、程式碼生成、檔案修改、執行檢查、錯誤修復等工具,請按合理順序連續完成,不要跳步。最終結果以可執行頁面為準。
MiniMax-M3 在這類長鏈路任務裡表現比較穩定。
基本上會主動進行多輪工具呼叫,包括搜尋資料、整理資料、生成頁面程式碼、檢查檔案、修復問題等。整個過程比較像一個正常工作的 Agent,不會只停留在「給一段程式碼」的層面。

測試過程中,工具呼叫失敗機率很小,但也不是完全沒有。我這裡有一次工具呼叫失敗,不過沒有影響最後的結果生成。模型會繼續往下執行,並把頁面做出來。

這個是製作完成後的頁面效果。




從最終頁面來看,MiniMax-M3 的資料完整度、頁面結構和互動功能都比較完整。它沒有特別追求視覺上的炫酷,但勝在流程穩定,任務理解也比較清楚。
Workbuddy 裡面消耗積分:27 點積分左右。
換算一下差不多在 1.33 元左右。

如果按 API 單價估算,MiniMax-M3 屬於中低成本模型,適合反覆跑 Agent 流程類任務。
經過多次測試,MiniMax-M3 的任務製作完成率為 100% ,工具成功呼叫率約為 98% 。有少部分工具呼叫失敗,但沒有影響最後結果生成。
簡單來說,MiniMax-M3 的優勢是穩定、便宜、能跑完。適合做批量頁面生成、資料整理、程式碼初稿、輕量級 Agent 任務。
說到便宜,下面測試一下最便宜的大模型 deepseek-v4-flash 看看效果怎麼樣。
同樣的提示詞,我又測試了 DeepSeek-V4-flash。

DeepSeek-V4-flash 的整體速度比較快,回應也很乾脆。它在理解需求、拆分頁面模組、生成 HTML 結構這幾個環節表現不錯。
不過在長鏈路工具呼叫裡,它的風格會更偏「快速完成任務」。也就是說,它會很快把程式碼生成出來,但在資料搜尋、資料校驗、細節修復方面,沒有 MiniMax-M3 和 Step-3.7-flash 那麼細。

從結果來看,頁面是可以正常完成的,基礎模組也都有。比如分類、卡片、搜尋、詳情、表格這些功能都能覆蓋到。

DeepSeek-V4-flash 比較適合對速度敏感的任務。如果你只是想快速得到一個能跑的 HTML Demo,它的效率很高。
但如果任務要求包含大量資料核對、頁面細節打磨、多次執行修復,它有時需要人工提醒一下。比如讓它再檢查一次連結、再優化一下樣式、再補充資料欄位。
Workbuddy 裡面消耗積分:4 點積分左右。換算一下差不多為 0.2 元左右。

從價格體感來看,DeepSeek-V4-flash 的成本優勢明顯,適合高頻呼叫。
經過多次測試,DeepSeek-V4-flash 的任務製作完成率約為 100%。工具呼叫成功率為 99%。
我的感受是,DeepSeek-V4-flash 很適合「快速生成 + 人工稍微檢查」的工作流。速度和成本很好,但長鏈路 Agent 的細節穩定性還需要看具體平台的工具環境。
Step-3.7-flash 是這次測試裡比較符合「生產級 Agent」定位的模型。
它在多工具呼叫上的積極性比較高,會連續完成搜尋、讀取、整理、生成、修改和檢查。整個過程更像是在完整執行一個任務,而不是簡單回答問題。

頁面效果是典型的深色科技風。
AI 很喜歡這種配色,如果沒有特別說明,很多模型都會預設生成深色系的網站頁面。這不能說不好,只是如果你想要清爽、明亮、偏公眾號長圖風格的頁面,提示詞裡最好提前寫清楚。

Step-3.7-flash 在資料整理方面表現比較突出。AI 工具資料比較全,分類也比較清楚。它會盡量涵蓋寫作、編程、圖片、影片、搜尋、辦公等不同類別,而不是只列幾個常見工具。



從頁面完成度來看,Step-3.7-flash 的內容密度最高。它會盡量把任務要求裡的模組都補上,包括頂部標題區、分類篩選、工具卡片、推薦工具、對比表格和總結說明。
本輪測試費用約為:0.7 元左右

從單價來看,Step-3.7-flash 價格屬於中等偏下選手,它的優勢不在低價,而在「能連續跑、少中斷、完成率高」。
經過多次測試,Step-3.7-flash 的任務製作完成率約為 100%,工具成功呼叫率約為 99%。
如果你的任務是高頻、多輪、低延遲,並且包含搜尋、檔案、程式碼、修復等工具鏈路,Step-3.7-flash 是比較值得放進候選列表的模型。
然後我們來看看 GLM5.2 生成的效果。

GLM5.2 在程式碼生成和頁面結構上表現不錯。它能理解這個任務需要一個完整的 AI 工具導航站,也能把頁面模組拆得比較清楚。
從結果來看,頁面整體完成度是可以的。分類、卡片、搜尋、說明區這些內容都有覆蓋。



GLM5.2 的特點是能力比較均衡。在 Agent 任務中可以正常發揮模型實力,最大的缺點就是太貴。
本輪測試費用約為:74 點積分左右。換算一下,差不多在 3.66 元左右。

最後再測試一個國外的模型 Gemini3.5 flash,看看效果怎麼樣。
如果是做前端頁面的話,Gemini 的美感一直比較在線。所以這裡我使用了 Gemini3.5 flash 模型。
下面是製作的 AI 工具導航網頁效果。

Gemini3.5 flash 最大的優勢是頁面觀感舒適。
它生成的前端頁面會更精緻,布局更舒服,留白和層次感也更好。相比前面幾個模型,Gemini3.5 flash 會更懂一點前端設計。

![]()
不過 Gemini3.5 flash 也有明顯問題。
它在視覺表現上確實更好,但資料蒐集沒有前面的模型多。尤其是和 Step-3.7-flash 對比,Step 蒐集的資料更全,分類覆蓋更完整,工具呼叫也更積極。
本輪測試費用約為:9 元左右。

Gemini3.5 flash 的價格明顯更貴,尤其是輸出 token 較多、帶工具呼叫、帶程式碼生成的任務,費用會比國產 Flash 檔模型高不少。
如果你對頁面要求比較高,可以試試 Gemini3.5 flash。它適合做展示頁、官網 Demo、產品介紹頁、課程資料頁。但如果你更關心成本和高頻呼叫,還是要謹慎一些。
這次測試下來,我更關注的不是單輪回答能力,而是模型能不能把一個真實任務從頭跑到尾。
如果只看頁面美觀,Gemini3.5 flash 的確更強。它生成的網頁更像一個成品 Demo,視覺上會舒服一些。
如果看工具呼叫和資料完整度,Step-3.7-flash 的表現更突出。它會更主動地搜尋、整理、生成和檢查,適合長鏈路 Agent 任務。
如果看成本和穩定性,MiniMax-M3 是一個很穩的選擇。它沒有特別花俏,但多次測試都能完成任務,工具呼叫失敗也不會明顯影響結果。
DeepSeek-V4-flash 的優勢是快和便宜,適合快速生成初稿。GLM5.2 則比較均衡,適合做綜合型任務。
所以模型選擇還是要看場景。
做展示型頁面,可以優先看 Gemini。 做生產級 Agent 流程,可以重點看 Step-3.7-flash。 做高頻低成本任務,可以看 MiniMax-M3 和 DeepSeek-V4-flash。