OpenAI 剛剛發布了GPT-5 。它建立在GPTO 系列推理模型之上,旨在更快、更聰明、更有效率。我將 GPT-5 與 Anthropic 的 Claude Opus 4.1 進行了對比,看看哪一個對實際開發工作更有幫助。

本次比較產生的所有程式碼都可以在這裡找到: github.com/rohittcodes/gpt-5-vs-opus-4-1

TL;DR

沒時間?以下是具體情況:

  • 演算法: GPT-5 在速度和代幣數量上勝出(8K vs 79K)

  • Web 開發: Opus 4.1 與 Figma 設計更加匹配(900K 對比 140 萬+ 個令牌)

  • 整體而言: GPT-5 是較好的日常開發夥伴(速度快 + 價格便宜)。如果設計保真度很重要,而且預算靈活,那麼 Opus 4.1 會是最佳選擇。

  • 花費: GPT-5(思考版)約 3.50 美元 vs Opus 4.1(思考版,Max 版)7.58 美元(約 2.3 倍)

介紹

Claude Opus 4.1 附有一個 20 萬個 token 的上下文視窗。 GPT-5 將其提升至 40 萬個 token,最大輸出為 12.8 萬個 token。儘管上下文空間增加了一倍,但 GPT-5 在完成相同工作時始終使用更少的 token,從而降低了執行成本。

SWE-bench 測試結果顯示,GPT-5 在編碼基準測試中略微領先 Opus 4.1,但基準測試並不能說明全部。因此,我在實際任務上對它們進行了測試。

SWE 基準

我如何測試這些模型

我對這兩個模型進行了相同的挑戰:

  • 語言:用於演算法的 Java,用於建立 Web 應用程式的 TypeScript/React

  • 任務:透過 Figma MCP 和 LeetCode 問題進行 Figma 設計克隆

  • 環境:整合 Rube MCP 的 Cursor IDE

  • 衡量指標:代幣使用、所用時間、程式碼品質、實際結果

為了保證公平,兩者都得到了完全相同的提示。

Rube MCP - 通用 MCP 伺服器

Rube MCP(由 Composio 開發)是 Figma、Jira、GitHub、Linear 等 MCP 工具包的通用連接層。探索工具包: docs.composio.dev/toolkits/introduction

如何連接:

  1. 轉到rube.composio.dev

  2. 點擊“新增到遊標”

  3. 出現提示時安裝 MCP 伺服器並啟用它

{% 嵌入 https://youtu.be/bZv6aX5XNTI %}

編碼比較

1)第一輪:Figma 設計克隆

我從 Figma 社群中挑選了一個複雜的儀表板設計,並要求兩個模型使用 Next.js 和 TypeScript 重新建立它。 Figma 設計:連結

Figma 設計

迅速的:

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use Rube MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
- Responsive design
- Proper component structure
- Styled-components or CSS modules
- Interactive elements

GPT-5 結果

GPT-5 使用 906,485 個 token,在大約 10 分鐘內交付了一個可以執行的 Next.js 應用程式。該應用執行良好,但視覺準確性令人失望。它抓住了基本思路,但忽略了大量設計細節,例如顏色、間距、排版等,這些都與原版有明顯的差異。

  • 代幣: 906,485

  • 時間:約 10 分鐘

  • 成本:產出合理

GPT-5 輸出

Claude Opus 4.1 結果

Opus 4.1 消耗了超過 140 萬個 token(比 GPT-5 多 55%),儘管我明確要求使用 styled-components,但最初還是卡在了 Tailwind 配置上。手動修復配置問題後,結果令人驚艷;UI 幾乎完美匹配 Figma 設計。視覺保真度遠超過 GPT-5。

  • 代幣: 1,400,000+(比 GPT-5 多約 55%)

  • 時間:由於迭代次數較多,因此時間較長

作品輸出

Opus 4.1 提供了更好的視覺保真度,但代幣成本更高,並且需要一些手動設定。

2)演算法挑戰

我在兩個模型上都佈置了經典的 LeetCode 難題「兩個排序陣列的中位數」。這題考察數學推理和最佳化能力,複雜度要求為O(log(m+n))

迅速的:

For the below problem description and the example test cases try to solve the problem in Java. Focus on edge cases as well as time complexity:

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

Example 1:
Input: nums1 = [1,3], nums2 = [2]
Output: 2.00000

Example 2:
Input: nums1 = [1,2], nums2 = [3,4]
Output: 2.50000

Template Code:
class Solution {
    public double findMedianSortedArrays(int[] nums1, int[] nums2) {

    }
}

代幣使用

GPT-5 結果

直奔主題。 13 秒內使用了 8,253 個 token,並提供了一個簡潔的O(log(min(m,n)))二分查找解決方案。邊緣情況處理得當,時間複雜度最優。簡直完美。

  • 代幣: 8,253

  • 時間: ~13秒

Claude Opus 4.1 結果

更加徹底。在多個推理步驟中消耗了 78,920 個 token(幾乎是 GPT-5 的 10 倍)。採用了系統化的方法,包含詳細的解釋、全面的註釋和內建的測試案例。同樣的演算法,但教育價值更高。

  • 令牌: 78,920(約 10 倍以上,跨越多個推理步驟)

  • 時間: ~34秒

LeetCode

兩者都以最佳方式解決了這個問題。 GPT-5 使用的令牌減少了約 90%。

機器學習/推理任務(以及成本現實)

我計劃圍繞機器學習和推理進行第三次更大規模的測試:建立一個端到端的客戶流失預測流程。在看到 Opus 4.1 在網頁端使用了超過 140 萬個代幣後,由於成本原因,我放棄了在網頁端執行它。但我執行了 GPT-5。

迅速的

Build a complete ML pipeline for predicting customer churn, including:
1. Data preprocessing and cleaning
2. Feature engineering
3. Model selection and training
4. Evaluation and metrics
5. Explain the reasoning behind each step in detail

GPT-5 結果

  • 代幣:約 86,850

  • 時間:約4-5分鐘

GPT-5 建構了一套可靠且有效的流程:清晰的預處理、合理的特徵工程;多種模型(邏輯回歸、隨機森林、可選的 XGBoost 和隨機搜尋);用於類別平衡的 SMOTE、透過 ROC-AUC 選擇最佳模型,以及全面的評估(準確率、精確率、召回率、F1)。解釋清晰明了,卻不冗長。

測試費用是多少(實際數字)

  • GPT-5(思維):總計約 3.50 美元 - Web 應用約 2.58 美元,演算法約 0.03 美元,機器學習約 0.88 美元。與 Opus-4.1 相比,價格不算貴。

  • Opus 4.1(思考+遊標上的最大模式):總計 7.58 美元 - Web 應用程式約 7.15 美元,演算法約 0.43 美元。

價格比較

結論

兩種模型都很好地利用了大型上下文窗口,但它們花費的令牌不同,因此成本差距很大。

GPT-5 的優勢

  • 演算法任務上的 token 減少約 90%

  • 更快、更實用的日常工作

  • 對大多數工作來說,成本效益高

Opus 4.1 的優勢

  • 清晰、循序漸進的解釋

  • 非常適合在編碼時學習

  • 出色的設計保真度(非常接近 Figma)

  • 在經濟條件允許的情況下進行深入分析

我的看法?使用 GPT-5 進行演算法、原型設計和大多數日常工作;它更快、更便宜。當視覺準確性至關重要(面向客戶端的 UI、行銷頁面)時,請選擇 Opus 4.1,這樣您就可以預算更多代幣。實際流程:使用 GPT-5 建立核心,然後使用 Opus 4.1 完善關鍵螢幕。


原文出處:https://dev.to/composiodev/openai-gpt-5-vs-claude-opus-41-a-coding-comparison-2mll


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝10   💬6   ❤️11
448
🥈
我愛JS
📝1   💬6   ❤️4
93
🥉
AppleLily
📝1   💬4   ❤️1
46
#4
💬2  
6
#5
💬1  
5
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次