小編精選 - 技術文章翻譯 · 05月30日

整理一下剛出爐的 Claude Opus 4.8

Claude Opus 4.8（Anthropic官方發表）
出典：Anthropic官方部落格「Introducing Claude Opus 4.8」引用

這篇文章是整理「又出了新 Claude，到底改了什麼？」的重點速覽。

前言

Claude Opus 4.8 已公開（日本時間 2026 年 5 月 29 日／美國時間 5 月 28 日）。距離前一版 4.7，只隔了大約 6 週就更新。

這次官方主打的不是效能或速度，而是 「誠實性（honesty）」。看到這個詞時我也有點「咦？」所以就把重點整理了一下。

這篇文章會知道什麼

了解 Opus 4.8 到底改了什麼
這次的「誠實性」是什麼意思，以及我試用前的想法
3 個新功能（effort 選擇／動態工作流程／Messages API）的概要
熱議的「Mythos」等未來動向

先講結論（只看重點）

Opus 4.8 是一個 「基準測試也提升了，但更重要的是更不容易說謊」 的模型。Anthropic 自己也把它形容成 「溫和但能感受到的改善」。

項目一句話主角 「誠實性」。會更主動說明自己沒把握的地方，漏看程式碼缺陷的機率比前一代少了約 4 分之 1。
新功能：effort 選擇、動態工作流程、Messages API 更新。
目前最讓人覺得「喔，還不錯」的是，內在能力確實變好了。

Claude Opus 4.8 是什麼

公開日期：日本時間 2026 年 5 月 29 日（美國時間 5 月 28 日）全球上線
定位：Anthropic 旗艦「Opus」系列的最新版

另外也提供高速（fast）模式，同一個模型可用約 2.5 倍速度運作。而且比起先前的 fast 模式，價格降到 1/3，讓需要速度的場景門檻低了不少。

關於誠實性

這是本次重點，也是官方最強調的改善項目。

實務上常會遇到模型 明明根據不足，卻很有自信地說「已經完成了！」 的情況。「欸，真的有做對嗎？」這種狀況大家應該都遇過。Opus 4.8 被描述為有以下改善：

更容易主動申告自己對工作內容的 不確定性
更不容易提出 缺乏根據的主張
自己寫出的程式碼缺陷被漏掉的機率，約降到前一代的 1/4

……以上是官方與媒體的說法。

老實說，我自己也在想：真的嗎？（小聲）

新功能簡單看 3 個

① effort（努力程度）選擇

在 claude 的模型選擇欄旁邊，新增了 可選擇 Claude 會花多少心力思考（effort）的控制項。
Claude Code 其實早就有 effort（/effort，5 階段），這次是把它擴展到 claude（Web／桌面版／手機版）也能選。

effortClaude Code 表記這種情況下的用途lowlow想快速拿到答案／想節省速率限制mediummedium以成本為優先，可以稍微犧牲品質high ※預設一般日常使用。品質與速度的平衡型extraxhigh困難任務、長時間執行的工作（官方推薦。※4.7 時是 Claude Code 的預設）maxmax品質優先。不過有時會過度思考（overthinking）> claude 的預設是 high，可從 low 到 max 選擇。不同環境的名稱會略有差異，claude 的「extra」對應 Claude Code 的「xhigh」。Claude Code 在 4.8 的預設也是 high，而 xhigh 是上一代 4.7 的預設。

重點是，4.8 的預設「high」，在程式設計情境下，性能提升到接近 4.7 的預設（Claude Code 則是 xhigh），但 token 量大致相同。如表所示，max 也可能會有過度思考，所以不一定越上面越強。

② 動態工作流程（給 Claude Code 用）

Claude Code 可以 自己規劃大型任務，並平行執行數百個子代理，之後再自我驗證。官方舉的例子是 「數十萬行規模的程式碼庫遷移，從開始到合併」。

↑ 這是執行中的畫面。大型任務會被拆成多個階段，每個階段中有多個子代理（全部都是 Opus 4.8、1M context）平行處理檔案。每個代理的 token 數與工具呼叫次數也都會顯示出來。
出典：Introducing dynamic workflows in Claude Code（Anthropic官方）

③ Messages API 更新（給開發者）

這是給開發者的變更。官方表示，Messages API 的訊息陣列中現在可以放 system 項目了。

目的在於「讓任務進行中更容易替換指令」。以前要中途改指令，必須插入使用者發言（user turn），這也容易造成 prompt cache 被破壞。這次更新後，據稱可以不經過 user turn、也不破壞快取，就直接更新運作中的 Claude 指令。官方提到的使用情境包括：代理執行中臨時更新 權限、token 預算、環境（context）資訊 等。
（出典：Anthropic官方部落格「Introducing Claude Opus 4.8」）

關於基準測試

SWE-Bench Pro（程式設計類）：69.2%（從 Opus 4.7 的 64.3% 改善）
在電腦操作、瀏覽器操作類任務中，也有在測試環境超越前一代與 GPT-5.5 的分數

Opus 4.8 的基準測試比較（官方）
出典：Anthropic官方部落格「Introducing Claude Opus 4.8」引用

與其說是「大幅跳升」，不如說是 穩穩進步 的印象。官方部落格中引用的測試者回饋也提到，Cursor 表示工具呼叫變得更有效率，同樣的智慧下步驟數減少；Cognition 則表示 4.7 時讓人困擾的留言冗長與工具呼叫問題已經改善。整體來說，多半是很務實的評價。

未來展望

Anthropic 預告了兩件事：

開發一個和 Opus 能力相當、但成本更低的模型
推出比 Opus 更聰明的新等級「Mythos」（預計在未來幾週內提供給所有客戶）

「未來幾週內」的依據是官方部落格中的這句話：

「…bring Mythos-class models to all our customers in the coming weeks.」
（……將在接下來幾週內，讓所有客戶都能使用 Mythos 級模型）
── Introducing Claude Opus 4.8

目前被討論的 Mythos，據說是 Project Glasswing 的一部分；部分組織已經為資安用途使用 Claude Mythos Preview，而要全面開放，還需要更強的資安防護機制。

官方說是幾週內，但心裡還是會想「大概又要拖吧」、「最後會不會有什麼問題」，不過同時也很期待「到底有多厲害」。

※「Project Glasswing（Project Glasswing）」是 Anthropic 主導的跨產業資安倡議。Apple、Google、Microsoft 等全球大型企業都有參與，目標是利用其次世代 AI 模型「Claude Mythos Preview」，提前偵測並修補關鍵基礎設施與開源軟體的漏洞。