🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 09月11日

OpenAI GPT-5 與 Claude Opus 4.1：編碼比較

OpenAI 剛剛發布了GPT-5 。它建立在GPT和O 系列推理模型之上，旨在更快、更聰明、更有效率。我將 GPT-5 與 Anthropic 的 Claude Opus 4.1 進行了對比，看看哪一個對實際開發工作更有幫助。

本次比較產生的所有程式碼都可以在這裡找到： github.com/rohittcodes/gpt-5-vs-opus-4-1 。

TL;DR

沒時間？以下是具體情況：

演算法： GPT-5 在速度和代幣數量上勝出（8K vs 79K）
Web 開發： Opus 4.1 與 Figma 設計更加匹配（900K 對比 140 萬+ 個令牌）
整體而言： GPT-5 是較好的日常開發夥伴（速度快 + 價格便宜）。如果設計保真度很重要，而且預算靈活，那麼 Opus 4.1 會是最佳選擇。
花費： GPT-5（思考版）約 3.50 美元 vs Opus 4.1（思考版，Max 版）7.58 美元（約 2.3 倍）

介紹

Claude Opus 4.1 附有一個 20 萬個 token 的上下文視窗。 GPT-5 將其提升至 40 萬個 token，最大輸出為 12.8 萬個 token。儘管上下文空間增加了一倍，但 GPT-5 在完成相同工作時始終使用更少的 token，從而降低了執行成本。

SWE-bench 測試結果顯示，GPT-5 在編碼基準測試中略微領先 Opus 4.1，但基準測試並不能說明全部。因此，我在實際任務上對它們進行了測試。

SWE 基準

我如何測試這些模型

我對這兩個模型進行了相同的挑戰：

語言：用於演算法的 Java，用於建立 Web 應用程式的 TypeScript/React
任務：透過 Figma MCP 和 LeetCode 問題進行 Figma 設計克隆
環境：整合 Rube MCP 的 Cursor IDE
衡量指標：代幣使用、所用時間、程式碼品質、實際結果

為了保證公平，兩者都得到了完全相同的提示。

Rube MCP - 通用 MCP 伺服器

Rube MCP（由 Composio 開發）是 Figma、Jira、GitHub、Linear 等 MCP 工具包的通用連接層。探索工具包： docs.composio.dev/toolkits/introduction 。

如何連接：

轉到rube.composio.dev 。
點擊“新增到遊標”
出現提示時安裝 MCP 伺服器並啟用它

{% 嵌入 https://youtu.be/bZv6aX5XNTI %}

編碼比較

1）第一輪：Figma 設計克隆

我從 Figma 社群中挑選了一個複雜的儀表板設計，並要求兩個模型使用 Next.js 和 TypeScript 重新建立它。 Figma 設計：連結

Figma 設計

迅速的：

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use Rube MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
- Responsive design
- Proper component structure
- Styled-components or CSS modules
- Interactive elements

GPT-5 結果

GPT-5 使用 906,485 個 token，在大約 10 分鐘內交付了一個可以執行的 Next.js 應用程式。該應用執行良好，但視覺準確性令人失望。它抓住了基本思路，但忽略了大量設計細節，例如顏色、間距、排版等，這些都與原版有明顯的差異。

代幣： 906,485
時間：約 10 分鐘
成本：產出合理

GPT-5 輸出

Claude Opus 4.1 結果

Opus 4.1 消耗了超過 140 萬個 token（比 GPT-5 多 55%），儘管我明確要求使用 styled-components，但最初還是卡在了 Tailwind 配置上。手動修復配置問題後，結果令人驚艷；UI 幾乎完美匹配 Figma 設計。視覺保真度遠超過 GPT-5。

代幣： 1,400,000+（比 GPT-5 多約 55%）
時間：由於迭代次數較多，因此時間較長

作品輸出

Opus 4.1 提供了更好的視覺保真度，但代幣成本更高，並且需要一些手動設定。

2）演算法挑戰

我在兩個模型上都佈置了經典的 LeetCode 難題「兩個排序陣列的中位數」。這題考察數學推理和最佳化能力，複雜度要求為O(log(m+n)) 。

迅速的：

For the below problem description and the example test cases try to solve the problem in Java. Focus on edge cases as well as time complexity:

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

Example 1:
Input: nums1 = [1,3], nums2 = [2]
Output: 2.00000

Example 2:
Input: nums1 = [1,2], nums2 = [3,4]
Output: 2.50000

Template Code:
class Solution {
    public double findMedianSortedArrays(int[] nums1, int[] nums2) {

    }
}

代幣使用

GPT-5 結果

直奔主題。 13 秒內使用了 8,253 個 token，並提供了一個簡潔的O(log(min(m,n)))二分查找解決方案。邊緣情況處理得當，時間複雜度最優。簡直完美。

代幣： 8,253
時間： ~13秒

Claude Opus 4.1 結果

更加徹底。在多個推理步驟中消耗了 78,920 個 token（幾乎是 GPT-5 的 10 倍）。採用了系統化的方法，包含詳細的解釋、全面的註釋和內建的測試案例。同樣的演算法，但教育價值更高。

令牌： 78,920（約 10 倍以上，跨越多個推理步驟）
時間： ~34秒

LeetCode

兩者都以最佳方式解決了這個問題。 GPT-5 使用的令牌減少了約 90%。

機器學習/推理任務（以及成本現實）

我計劃圍繞機器學習和推理進行第三次更大規模的測試：建立一個端到端的客戶流失預測流程。在看到 Opus 4.1 在網頁端使用了超過 140 萬個代幣後，由於成本原因，我放棄了在網頁端執行它。但我執行了 GPT-5。

迅速的

Build a complete ML pipeline for predicting customer churn, including:
1. Data preprocessing and cleaning
2. Feature engineering
3. Model selection and training
4. Evaluation and metrics
5. Explain the reasoning behind each step in detail

GPT-5 結果

代幣：約 86,850
時間：約4-5分鐘

GPT-5 建構了一套可靠且有效的流程：清晰的預處理、合理的特徵工程；多種模型（邏輯回歸、隨機森林、可選的 XGBoost 和隨機搜尋）；用於類別平衡的 SMOTE、透過 ROC-AUC 選擇最佳模型，以及全面的評估（準確率、精確率、召回率、F1）。解釋清晰明了，卻不冗長。

測試費用是多少（實際數字）

GPT-5（思維）：總計約 3.50 美元 - Web 應用約 2.58 美元，演算法約 0.03 美元，機器學習約 0.88 美元。與 Opus-4.1 相比，價格不算貴。
Opus 4.1（思考+遊標上的最大模式）：總計 7.58 美元 - Web 應用程式約 7.15 美元，演算法約 0.43 美元。

價格比較