隨著最近發布的 Grok 4(據稱是最聰明的 AI 模型) ,人們提出了一個重要的問題:該模型在編碼方面的表現如何,以及它是否超越了我們擁有的最佳模型,即 Anthropic 的 Claude Opus 4 和另一個可靠的模型,谷歌的 Gemini 2.5 Pro。 🔥

在本文中,我們將釐清一些問題,並確定哪種模型在編碼方面表現優異。我們將首先在實際場景中進行測試,然後完成一個快速動畫測試。

因此,事不宜遲,讓我們直接開始吧!

讓我們開始吧 GIF


TL;DR

如果您想直接得出結論,以下是我們在部落格中涵蓋的所有內容:

  • 令人驚訝的是,Grok 4 在編碼任務方面的表現並不比 Claude Opus 4 好多少。

  • 毫無疑問,它絕對比 Gemini 2.5 Pro 更好。

  • 有時,Claude Opus 4 實際上比 Grok 4 表現更好(您將在下面的比較中看到)。

  • 話雖如此,Grok 4 一點也不差;它總體來說是一個優秀的模型,只是在編碼方面不是最好的。在推理任務方面? Grok 4 可能是最好的。

  • 如果你考慮定價,Gemini 仍然是贏家,而不是程式碼,如果你將它與 Claude Opus 4 和 Grok 4 進行比較。 🤷‍♂️

關於 Grok 4 AI 模型的推文


Grok 4 簡介

Grok 4 是 xAI 最新推出的推理模型,也是迄今為止最聰明的AI 模型。 Grok 4 不僅可以與其他 AI 模型競爭,還可以與人類競爭,是的,你沒聽錯。

它是第一個在 ARC-AGI 基準上得分超過 15% 的模型,該基準旨在衡量通用人工智慧 (AGI) 的進展,通用人工智慧是一種人工智慧,其一般推理能力旨在與人類大腦相匹配。

Grok 4 ARC-AGI 基準

🗣️ 「就學術問題而言,Grok 4 在每個學科上都比博士水平要好。無一例外。」——埃隆·馬斯克

{% twitter https://x.com/AutismCapital/status/1943161993315389554

它配備了 256k 的 token 上下文窗口,相比最近的 Gemini 2.5 Pro(1M token 上下文窗口)來說,這個容量非常低。它比 Claude 4 系列略勝一籌,後者擁有大約 200k token 的容量。

如果我們比較一下程式碼部分,馬斯克本人聲稱,你可以將整個原始碼複製並貼上到查詢中,它就會幫你修復錯誤或加入功能,就像這樣。它還聲稱“比 Cursor 更好”。

Elon 必須聲稱 Grok 4 比 Cursor 更好

該模型的定價與 Grok 3 相同,但有一個不同之處:每百萬輸入令牌的成本約為 3 美元(128k 後翻倍),每百萬輸出令牌的成本約為 15 美元(128k 後翻倍)。

Grok 4 的主要基準測試結果

  1. 該機型在 GPQA Diamond 測試中取得 88% 的高分,超過了 Gemini 2.5 Pro 的 84%。

  2. 它在人類期末考中以 24% 的成績創下新高,超過了 Gemini 2.5 Pro 之前的 21% 的成績。

  3. 它在 MMLU-Pro 和 AIME 2024 中分別獲得了 87% 和 94% 的並列最高分。

  4. 不僅如此,它在編碼基準測試中的表現也超越了所有模型,在 LiveCodeBench 中以 79.4% 的成績排名第一,而第二好的成績為 75.8%。

並且,在其他一些基準測試中它也領先所有模型。

Grok 4 模型基準

總而言之,目前,如果您進行任何基準測試,Grok 4 很可能處於領先地位。

它可以透過 API 和付費訂閱兩種方式使用。您可以在 SuperGrok 上以每月 30 美元或每年 300 美元的價格使用它,這樣您就可以使用標準版 Grok 4。但是,要使用Grok 4 Heavy ,您需要訂閱 SuperGrok Heavy 計劃,每月 300 美元或每年 3000 美元。

SuperGrok 定價

我們還沒有實現 AGI,但這是 AGI 競賽中的一大突破,Elon 已經暗示了這一點。

Elon 肯定在用 Grok 4 暗示 AGI


編碼比較

1. 使用 MCP 克隆 Figma 設計

在我們開始之前,以下是 Figma 設計,我們將要求所有這三個模型在我們的 Next.js 應用程式中複製它:

Figma 佈局

💁提示:使用給定的 Figma 設計作為參考,建立一個 Figma 設計克隆: <URL> 。盡量使其盡可能接近。

Grok 4 的回复

這是它產生的回應:

Grok 4 的 Figma 設計實現

這看起來太棒了!我喜歡大家的回饋;除了一些小細節之外,一切都很好,你可以親眼看看。有些圖示的位置不太好。文字和其他一切都恰到好處。

一個小細節是,這個設計的實現花了相當長的時間,大約4分鐘。雖然不能說花了多少時間,但比起其他兩個模型,它的實現時間最長。

此外,它在工具呼叫方面也表現得非常出色。該模型幾乎每次都能以99% 的準確率選擇正確的工具並使用合適的參數進行工具呼叫,因此其有效性毋庸置疑。

您可以在此處找到它生成的程式碼:連結

如果你仔細檢查程式碼,你會發現它並不完美。它可以分解成多個小元件,因為我沒有限制將所有程式碼變更都放在一個檔案中,這樣可以更好地組織程式碼。儘管如此,它仍然很到位。

Claude Opus 4 的回复

這是它產生的回應:

Figma 設計實現(Claude Opus 4)

我覺得這個比 Grok 4 的實作稍微好一點。所有圖示的位置都很好。如果仔細觀察,肯定會有一些不一致的地方,但總的來說,這個設計最接近我們的 Figma 設計。

您可以在此處找到它生成的程式碼:連結

Opus 4 的開發時間與 Grok 4 差不多,產生的程式碼也與 Grok 4 非常相似。它並沒有真正分解成元件,而是將所有內容打包在一個文件中。雖然它並沒有給人留下太深刻的印象,但至少它最接近設計。

Gemini 2.5 Pro 的回應

這才是最大的驚喜,說實話,Gemini 2.5 Pro 這個型號,設計翻來覆去看了好幾遍,還是沒找到點兒頭。

Gemini 2.5 Pro 的 Figma 設計實現

如你所見,除了一些圖標和文字外,它什麼都沒實現。我反覆嘗試了好幾次,但還是沒用。響應太差了,我以為是我這邊出了什麼問題。我又試了一次,結果還是一樣。這太瘋狂了。 🤦‍♂️

我長期以來一直使用這種模型,但由於某種原因,它似乎對代理工作流程不太有效。

您可以在此處找到它生成的程式碼:連結

然而,在檢查程式碼後,我發現它是迄今為止組織得最好的小元件,而且程式碼的編寫方式比 Grok 4 甚至 Claude Opus 4 都要好。不過,最終產品才是最重要的,所以我對它的反應並不十分滿意。 😔

概括

Grok 4 和 Claude Opus 4 在複製設計方面都很好地解決了這個問題,但他們在程式碼方面並不擅長。

我注意到的另一件事是,不知何故,這三個模型都以為這只是它們應該處理的 UI。我的意思是,它們實際上沒有加入任何邏輯,這有點令人驚訝。至少它們可以為側邊欄專案和按鈕實現一些處理函數,但實際上什麼都沒有。只是用 Tailwind 寫的普通 JSX。 😑

2.黑洞動畫

💁提示:使用 Three.js 和著色器在單一 HTML 檔案中建立 3D 黑洞視覺化效果。盡量使其盡可能美觀且準確。

Grok 4 的回复

您可以在此處找到它生成的程式碼:連結

這是程式的輸出:

https://youtu.be/ArjyRpwgaKM

這真是太棒了!動畫流暢,手感精準。程式碼條理清晰,易於理解。成果非常棒,我印象深刻。

最初,我遇到了 Three.js 的一些 CORS 問題,然後我跟進了提示。

Three.js 的 CORS 控制台錯誤

但一旦修復它,結果就出來了:一個看起來很華麗的黑洞動畫。

Claude Opus 4 的回复

您可以在此處找到它生成的程式碼:連結

這是程式的輸出:

https://youtu.be/2OSF9F4Ujgc

令人驚訝的是,這個模型也收到了類似的回饋。我注意到的唯一區別是它增加了一些修改動畫的選項。

雖然沒有被要求,但加入這些控制項還是不錯的。但僅基於這些新增的控件,我認為我們無法在這裡進行比較。 Grok 4 和這個模型在實作方面都做得很好。

Gemini 2.5 Pro 的回應

您可以在此處找到它生成的程式碼:連結

這是程式的輸出:

https://youtu.be/3R\_i6eSyCXk

現在,我對動畫有點偏見。和前兩部比起來,這部感覺不太好。 🙃

不過,它也不錯。一切都運作良好,包括軌道控制,只是動畫不夠清晰,與其他兩款不太匹配。


包起來!

在這個測試中,我發現 Grok 4 和 Claude Opus 4 之間的反應沒有太大差異,但有時感覺 Claude Opus 的表現略勝其他兩個。

不過,選擇 Grok 4 進行編碼也絕對不會錯。它是一款全能型模型,也是最聰明的 AI 模型之一。而且,如果我們在編碼方面也能達到這樣的效能,那還有什麼可求的呢?那就去買吧,尤其是考慮到它與 Claude Opus 4 的差價。

這是一個相對較短的編碼測試,但它旨在讓人們了解 Grok 4 及其編碼能力。

我們已經做過一個測試,比較了 Claude Opus 4 和 Gemini 2.5 Pro 的編碼效能。如果你想看看,可以看看:

https://dev.to/composiodev/claude-opus-4-vs-gemini-25-pro-vs-openai-o3-coding-comparison-3jnp

請告訴我你目前使用 Grok 4 的體驗如何。你準備好切換到你目前的模型進行編碼了嗎? 👀


原文出處:https://dev.to/composiodev/grok-4-vs-claude-opus-4-vs-gemini-25-pro-coding-comparison-35ed


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝10   💬6   ❤️11
448
🥈
我愛JS
📝1   💬6   ❤️4
93
🥉
AppleLily
📝1   💬4   ❤️1
46
#4
💬2  
6
#5
💬1  
5
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次