🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 09月11日

Grok 4、Claude Opus 4 與 Gemini 2.5 Pro 編碼比較 🚀

隨著最近發布的 Grok 4（據稱是最聰明的 AI 模型） ，人們提出了一個重要的問題：該模型在編碼方面的表現如何，以及它是否超越了我們擁有的最佳模型，即 Anthropic 的 Claude Opus 4 和另一個可靠的模型，谷歌的 Gemini 2.5 Pro。 🔥

在本文中，我們將釐清一些問題，並確定哪種模型在編碼方面表現優異。我們將首先在實際場景中進行測試，然後完成一個快速動畫測試。

因此，事不宜遲，讓我們直接開始吧！

讓我們開始吧 GIF

TL;DR

如果您想直接得出結論，以下是我們在部落格中涵蓋的所有內容：

令人驚訝的是，Grok 4 在編碼任務方面的表現並不比 Claude Opus 4 好多少。
毫無疑問，它絕對比 Gemini 2.5 Pro 更好。
有時，Claude Opus 4 實際上比 Grok 4 表現更好（您將在下面的比較中看到）。
話雖如此，Grok 4 一點也不差；它總體來說是一個優秀的模型，只是在編碼方面不是最好的。在推理任務方面？ Grok 4 可能是最好的。
如果你考慮定價，Gemini 仍然是贏家，而不是程式碼，如果你將它與 Claude Opus 4 和 Grok 4 進行比較。 🤷‍♂️

關於 Grok 4 AI 模型的推文

Grok 4 簡介

Grok 4 是 xAI 最新推出的推理模型，也是迄今為止最聰明的AI 模型。 Grok 4 不僅可以與其他 AI 模型競爭，還可以與人類競爭，是的，你沒聽錯。

它是第一個在 ARC-AGI 基準上得分超過 15% 的模型，該基準旨在衡量通用人工智慧 (AGI) 的進展，通用人工智慧是一種人工智慧，其一般推理能力旨在與人類大腦相匹配。

Grok 4 ARC-AGI 基準

🗣️ 「就學術問題而言，Grok 4 在每個學科上都比博士水平要好。無一例外。」——埃隆·馬斯克

{% twitter https://x.com/AutismCapital/status/1943161993315389554

它配備了 256k 的 token 上下文窗口，相比最近的 Gemini 2.5 Pro（1M token 上下文窗口）來說，這個容量非常低。它比 Claude 4 系列略勝一籌，後者擁有大約 200k token 的容量。

如果我們比較一下程式碼部分，馬斯克本人聲稱，你可以將整個原始碼複製並貼上到查詢中，它就會幫你修復錯誤或加入功能，就像這樣。它還聲稱“比 Cursor 更好”。

Elon 必須聲稱 Grok 4 比 Cursor 更好

該模型的定價與 Grok 3 相同，但有一個不同之處：每百萬輸入令牌的成本約為 3 美元（128k 後翻倍），每百萬輸出令牌的成本約為 15 美元（128k 後翻倍）。

Grok 4 的主要基準測試結果

該機型在 GPQA Diamond 測試中取得 88% 的高分，超過了 Gemini 2.5 Pro 的 84%。
它在人類期末考中以 24% 的成績創下新高，超過了 Gemini 2.5 Pro 之前的 21% 的成績。
它在 MMLU-Pro 和 AIME 2024 中分別獲得了 87% 和 94% 的並列最高分。
不僅如此，它在編碼基準測試中的表現也超越了所有模型，在 LiveCodeBench 中以 79.4% 的成績排名第一，而第二好的成績為 75.8%。

並且，在其他一些基準測試中它也領先所有模型。

Grok 4 模型基準

總而言之，目前，如果您進行任何基準測試，Grok 4 很可能處於領先地位。

它可以透過 API 和付費訂閱兩種方式使用。您可以在 SuperGrok 上以每月 30 美元或每年 300 美元的價格使用它，這樣您就可以使用標準版 Grok 4。但是，要使用Grok 4 Heavy ，您需要訂閱 SuperGrok Heavy 計劃，每月 300 美元或每年 3000 美元。

SuperGrok 定價

我們還沒有實現 AGI，但這是 AGI 競賽中的一大突破，Elon 已經暗示了這一點。

Elon 肯定在用 Grok 4 暗示 AGI

編碼比較

1. 使用 MCP 克隆 Figma 設計

在我們開始之前，以下是 Figma 設計，我們將要求所有這三個模型在我們的 Next.js 應用程式中複製它：

Figma 佈局

💁提示：使用給定的 Figma 設計作為參考，建立一個 Figma 設計克隆： <URL> 。盡量使其盡可能接近。

Grok 4 的回复

這是它產生的回應：

Grok 4 的 Figma 設計實現

這看起來太棒了！我喜歡大家的回饋；除了一些小細節之外，一切都很好，你可以親眼看看。有些圖示的位置不太好。文字和其他一切都恰到好處。

一個小細節是，這個設計的實現花了相當長的時間，大約4分鐘。雖然不能說花了多少時間，但比起其他兩個模型，它的實現時間最長。

此外，它在工具呼叫方面也表現得非常出色。該模型幾乎每次都能以99% 的準確率選擇正確的工具並使用合適的參數進行工具呼叫，因此其有效性毋庸置疑。

您可以在此處找到它生成的程式碼：連結

如果你仔細檢查程式碼，你會發現它並不完美。它可以分解成多個小元件，因為我沒有限制將所有程式碼變更都放在一個檔案中，這樣可以更好地組織程式碼。儘管如此，它仍然很到位。

Claude Opus 4 的回复

這是它產生的回應：

Figma 設計實現（Claude Opus 4）

我覺得這個比 Grok 4 的實作稍微好一點。所有圖示的位置都很好。如果仔細觀察，肯定會有一些不一致的地方，但總的來說，這個設計最接近我們的 Figma 設計。

您可以在此處找到它生成的程式碼：連結

Opus 4 的開發時間與 Grok 4 差不多，產生的程式碼也與 Grok 4 非常相似。它並沒有真正分解成元件，而是將所有內容打包在一個文件中。雖然它並沒有給人留下太深刻的印象，但至少它最接近設計。

Gemini 2.5 Pro 的回應

這才是最大的驚喜，說實話，Gemini 2.5 Pro 這個型號，設計翻來覆去看了好幾遍，還是沒找到點兒頭。

Gemini 2.5 Pro 的 Figma 設計實現

如你所見，除了一些圖標和文字外，它什麼都沒實現。我反覆嘗試了好幾次，但還是沒用。響應太差了，我以為是我這邊出了什麼問題。我又試了一次，結果還是一樣。這太瘋狂了。 🤦‍♂️

我長期以來一直使用這種模型，但由於某種原因，它似乎對代理工作流程不太有效。

您可以在此處找到它生成的程式碼：連結

然而，在檢查程式碼後，我發現它是迄今為止組織得最好的小元件，而且程式碼的編寫方式比 Grok 4 甚至 Claude Opus 4 都要好。不過，最終產品才是最重要的，所以我對它的反應並不十分滿意。 😔

概括

Grok 4 和 Claude Opus 4 在複製設計方面都很好地解決了這個問題，但他們在程式碼方面並不擅長。

我注意到的另一件事是，不知何故，這三個模型都以為這只是它們應該處理的 UI。我的意思是，它們實際上沒有加入任何邏輯，這有點令人驚訝。至少它們可以為側邊欄專案和按鈕實現一些處理函數，但實際上什麼都沒有。只是用 Tailwind 寫的普通 JSX。 😑

2.黑洞動畫

💁提示：使用 Three.js 和著色器在單一 HTML 檔案中建立 3D 黑洞視覺化效果。盡量使其盡可能美觀且準確。

Grok 4 的回复

您可以在此處找到它生成的程式碼：連結

這是程式的輸出：

https://youtu.be/ArjyRpwgaKM

這真是太棒了！動畫流暢，手感精準。程式碼條理清晰，易於理解。成果非常棒，我印象深刻。

最初，我遇到了 Three.js 的一些 CORS 問題，然後我跟進了提示。

Three.js 的 CORS 控制台錯誤

但一旦修復它，結果就出來了：一個看起來很華麗的黑洞動畫。

Claude Opus 4 的回复

您可以在此處找到它生成的程式碼：連結

這是程式的輸出：

https://youtu.be/2OSF9F4Ujgc

令人驚訝的是，這個模型也收到了類似的回饋。我注意到的唯一區別是它增加了一些修改動畫的選項。

雖然沒有被要求，但加入這些控制項還是不錯的。但僅基於這些新增的控件，我認為我們無法在這裡進行比較。 Grok 4 和這個模型在實作方面都做得很好。

Gemini 2.5 Pro 的回應

您可以在此處找到它生成的程式碼：連結

這是程式的輸出：

https://youtu.be/3R\_i6eSyCXk

現在，我對動畫有點偏見。和前兩部比起來，這部感覺不太好。 🙃

不過，它也不錯。一切都運作良好，包括軌道控制，只是動畫不夠清晰，與其他兩款不太匹配。

包起來！

在這個測試中，我發現 Grok 4 和 Claude Opus 4 之間的反應沒有太大差異，但有時感覺 Claude Opus 的表現略勝其他兩個。

不過，選擇 Grok 4 進行編碼也絕對不會錯。它是一款全能型模型，也是最聰明的 AI 模型之一。而且，如果我們在編碼方面也能達到這樣的效能，那還有什麼可求的呢？那就去買吧，尤其是考慮到它與 Claude Opus 4 的差價。

這是一個相對較短的編碼測試，但它旨在讓人們了解 Grok 4 及其編碼能力。

我們已經做過一個測試，比較了 Claude Opus 4 和 Gemini 2.5 Pro 的編碼效能。如果你想看看，可以看看：

https://dev.to/composiodev/claude-opus-4-vs-gemini-25-pro-vs-openai-o3-coding-comparison-3jnp

請告訴我你目前使用 Grok 4 的體驗如何。你準備好切換到你目前的模型進行編碼了嗎？ 👀

原文出處：https://dev.to/composiodev/grok-4-vs-claude-opus-4-vs-gemini-25-pro-coding-comparison-35ed

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 1,005瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝8 💬7 ❤️2

191

🥈

我愛JS

💬1

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次

🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢