小編精選 - 技術文章翻譯 · 03月15日

首個OpenClaw龍蝦大模型排行榜來了，國產AI霸榜了！

================================

最近 AI 科技領域爆火出圈的話題，非 OpenClaw 小龍蝦莫屬。

這個能讓 AI 從嘴替變成打工人的開源智能體框架，目前正在以一種近乎瘋狂的速度席捲全球。

就算你還沒用過它，那你大概率也在社群網路上刷到過那個在深圳騰訊大廈前上千人排隊安裝 OpenClaw 的畫面。

不開玩笑的說，現在同事朋友見面，打招呼都變成了：「你養了幾隻龍蝦？」。

OpenClaw 的爆火，源於它解決了 AI 發展至今的一個核心痛點：只說不做。

你可以把 OpenClaw 看成是專屬的數位員工，你給它目標，它就能真正動手去執行，而不是給你列一個操作步驟清單。這種從問答到執行的跨越，或許也正是其成為現象級產品的背後原因。

但是，OpenClaw 本身只是個框架或說平台，它的智商和能力，取決於你接入哪個大模型作為大腦，同時這也引出了很多人所面臨的一個實際問題：

市面上模型這麼多，到底哪個最適合當龍蝦的大腦呢？

關於這個問題，就在前兩天，OpenClaw 創辦人 Peter Steinberger 親自在網上發了一個專為龍蝦而生的 OpenClaw 大模型適配榜單，其中國產模型兩個進了前三。

這個榜單名為 PinchBench，是由專注於 Agent 基礎設施的創業團隊 Kilo AI 推出的基準測試平台。

不同於傳統的數學推理或知識問答測試，它非常硬核。因為它專門設計了二十多項跨場景的真實任務流程，比如自動寫程式、文件處理、工具介面呼叫、處理郵件……等等，用來評估不同大模型在 OpenClaw 框架下的真實執行力。

而且這個榜單是動態更新的，最新的排名可以在 PinchBench 官網直接查看。

可以看到，這個榜單是從執行成功率（Success Rate）、執行速度（Speed）、價格成本（Cost）等評測維度來評估不同大模型對於 OpenClaw 框架的適配程度。

所以有了這樣一個參考榜單，大家在養龍蝦時對於效果、速度以及費用成本的比較基本上就有了心理的權衡依據。

在 PinchBench 的評測維度中，成功率（Success Rate）是核心指標之一。在這份測試了全球數十款主流模型的榜單中，競爭極其激烈。

我們在撰寫這篇文章時，看到的榜單差不多是這樣：

可以看到榜單前十五中，國產模型佔了近一半，包括月之暗面 Kimi、阿里千問、智譜 GLM、MiniMax、DeepSeek 等等都赫然在列。

這也代表，在系統化操作、多任務處理等真實場景和任務流程中，這些國產模型的效果和穩定性已經達到全球頂尖水平。

對於普通使用者和開發者來說，除了能幹活，性價比也是個重要考量。畢竟 AI 智能體時代的 Token 消耗量相比對話時代會有巨量成長，所以養龍蝦也得該省省該花花；若不精打細算，錢包很快就會被吃光。

在這方面，國產模型展現出巨大的優勢，對於想要長期養龍蝦的普通使用者和開發者來說，簡直是福音。

比如 minimax-m2.1 完成一次任務的成本與 claude-opus-4.5 相比僅為其二十分之一，但考慮到 minimax-m2.1 接近 claude-opus-4.5 的超高成功率，這樣一比較，minimax 的綜合性價比就顯得非常高。

再比如 Kimi，它曾一度登上 OpenClaw 的模型呼叫量榜首，這是大家切切實實用行動投出的票。其親民價格與強大模型能力，特別適合個人專案、小團隊以及預算有限的場景。

所以有人總結出一套所謂最省錢的養虛（龍蝦）方案，採用模型分層使用策略。比如日常使用、常規任務，選用國產的 minimax、qwen、deepseek，很多都有套餐，這樣成本可控、不心疼，而且效果也非常夠用；遇到臨時的複雜任務再上 claude、gemini。

沒有最好的模型，只有最適合你應用場景的模型。所以實際選擇時，不能只盯著成功率看，而要結合自己的使用場景做加減取捨。

綜合來看，如果想在執行成功率和價格成本之間取得平衡，下面這張圖可以作為參考。

其中深色方框所框出的區域表示在效果與成本兩個方向上的平衡選擇，這裡面國產模型佔了很多個。

最後值得一提的是，PinchBench 目前仍然是完全開源的專案。

快速入門：

# 複製專案程式庫
git clone https://github.com/pinchbench/skill.git
cd skill

# 執行指定模型的 benchmark 測試
./scripts/run.sh --model anthropic/claude-sonnet-4

使用者也可以自訂選擇執行特定任務，只需要在命令中用 --suite 指定特定任務的任務 ID 即可。

# 執行指定任務
./scripts/run.sh --model openai/gpt-4o --suite task_01_calendar,task_02_stock

文章最後想說的是，OpenClaw 雖火，但不一定適合所有人；若是盲目跟風，就沒太大必要。而且目前其涉及的一些風險問題也不少，所以大家還是要根據自己或團隊的實際情況審慎選用。

OpenClaw 的火爆只是個開始，相信今年後面還會湧現出更多功能強大、使用友好、資訊安全而且能大幅提升工作生產力的 AI 專案，對此我們可以拭目以待。

原文出處：https://juejin.cn/post/7616466545534992424

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 1,567瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝8 💬2 ❤️5

244

🥈

我愛JS

📝2 💬6 ❤️3

111

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次