Claude Opus 4.8(Anthropic官方發表)
出典:Anthropic官方部落格「Introducing Claude Opus 4.8」 引用

這篇文章是整理「又出了新 Claude,到底改了什麼?」的重點速覽。

前言

Claude Opus 4.8 已公開(日本時間 2026 年 5 月 29 日/美國時間 5 月 28 日)。距離前一版 4.7,只隔了大約 6 週就更新。

這次官方主打的不是效能或速度,而是 「誠實性(honesty)」。看到這個詞時我也有點「咦?」所以就把重點整理了一下。

這篇文章會知道什麼

  • 了解 Opus 4.8 到底改了什麼
  • 這次的「誠實性」是什麼意思,以及我試用前的想法
  • 3 個新功能(effort 選擇/動態工作流程/Messages API)的概要
  • 熱議的「Mythos」等未來動向

先講結論(只看重點)

Opus 4.8 是一個 「基準測試也提升了,但更重要的是更不容易說謊」 的模型。Anthropic 自己也把它形容成 「溫和但能感受到的改善」

項目一句話主角 「誠實性」。會更主動說明自己沒把握的地方,漏看程式碼缺陷的機率比前一代少了約 4 分之 1。
新功能:effort 選擇、動態工作流程、Messages API 更新。
目前最讓人覺得「喔,還不錯」的是,內在能力確實變好了


Claude Opus 4.8 是什麼

  • 公開日期:日本時間 2026 年 5 月 29 日(美國時間 5 月 28 日)全球上線
  • 定位:Anthropic 旗艦「Opus」系列的最新版

另外也提供高速(fast)模式,同一個模型可用約 2.5 倍速度運作。而且比起先前的 fast 模式,價格降到 1/3,讓需要速度的場景門檻低了不少。


關於誠實性

這是本次重點,也是官方最強調的改善項目

實務上常會遇到模型 明明根據不足,卻很有自信地說「已經完成了!」 的情況。「欸,真的有做對嗎?」這種狀況大家應該都遇過。Opus 4.8 被描述為有以下改善:

  • 更容易主動申告自己對工作內容的 不確定性
  • 更不容易提出 缺乏根據的主張
  • 自己寫出的程式碼缺陷被漏掉的機率,約降到前一代的 1/4

……以上是官方與媒體的說法。

老實說,我自己也在想:真的嗎?(小聲)


新功能簡單看 3 個

① effort(努力程度)選擇

在 claude 的模型選擇欄旁邊,新增了 可選擇 Claude 會花多少心力思考(effort)的控制項
Claude Code 其實早就有 effort(/effort,5 階段),這次是把它擴展到 claude(Web/桌面版/手機版)也能選。

image.png

effortClaude Code 表記這種情況下的用途lowlow想快速拿到答案/想節省速率限制mediummedium以成本為優先,可以稍微犧牲品質high ※預設一般日常使用。品質與速度的平衡型extraxhigh困難任務、長時間執行的工作(官方推薦。※4.7 時是 Claude Code 的預設)maxmax品質優先。不過有時會過度思考(overthinking)> claude 的預設是 high,可從 low 到 max 選擇。不同環境的名稱會略有差異,claude 的「extra」對應 Claude Code 的「xhigh」。Claude Code 在 4.8 的預設也是 high,而 xhigh 是上一代 4.7 的預設。

image.png

重點是,4.8 的預設「high」,在程式設計情境下,性能提升到接近 4.7 的預設(Claude Code 則是 xhigh),但 token 量大致相同。如表所示,max 也可能會有過度思考,所以不一定越上面越強

② 動態工作流程(給 Claude Code 用)

Claude Code 可以 自己規劃大型任務,並平行執行數百個子代理,之後再自我驗證。官方舉的例子是 「數十萬行規模的程式碼庫遷移,從開始到合併」

image.png

↑ 這是執行中的畫面。大型任務會被拆成多個階段,每個階段中有多個子代理(全部都是 Opus 4.8、1M context)平行處理檔案。每個代理的 token 數與工具呼叫次數也都會顯示出來。
出典:Introducing dynamic workflows in Claude Code(Anthropic官方)

③ Messages API 更新(給開發者)

這是給開發者的變更。官方表示,Messages API 的訊息陣列中現在可以放 system 項目了。

目的在於「讓任務進行中更容易替換指令」。以前要中途改指令,必須插入使用者發言(user turn),這也容易造成 prompt cache 被破壞。這次更新後,據稱可以不經過 user turn、也不破壞快取,就直接更新運作中的 Claude 指令。官方提到的使用情境包括:代理執行中臨時更新 權限、token 預算、環境(context)資訊 等。
(出典:Anthropic官方部落格「Introducing Claude Opus 4.8」


關於基準測試

  • SWE-Bench Pro(程式設計類):69.2%(從 Opus 4.7 的 64.3% 改善)
  • 在電腦操作、瀏覽器操作類任務中,也有在測試環境超越前一代與 GPT-5.5 的分數

Opus 4.8 的基準測試比較(官方)
出典:Anthropic官方部落格「Introducing Claude Opus 4.8」 引用

與其說是「大幅跳升」,不如說是 穩穩進步 的印象。官方部落格中引用的測試者回饋也提到,Cursor 表示工具呼叫變得更有效率,同樣的智慧下步驟數減少;Cognition 則表示 4.7 時讓人困擾的留言冗長與工具呼叫問題已經改善。整體來說,多半是很務實的評價。


未來展望

Anthropic 預告了兩件事:

  • 開發一個和 Opus 能力相當、但成本更低的模型
  • 推出比 Opus 更聰明的新等級「Mythos」(預計在未來幾週內提供給所有客戶)

「未來幾週內」的依據是官方部落格中的這句話:

「…bring Mythos-class models to all our customers in the coming weeks.」
(……將在接下來幾週內,讓所有客戶都能使用 Mythos 級模型)
── Introducing Claude Opus 4.8

目前被討論的 Mythos,據說是 Project Glasswing 的一部分;部分組織已經為資安用途使用 Claude Mythos Preview,而要全面開放,還需要更強的資安防護機制。

官方說是幾週內,但心裡還是會想「大概又要拖吧」、「最後會不會有什麼問題」,不過同時也很期待「到底有多厲害」。

※「Project Glasswing(Project Glasswing)」是 Anthropic 主導的跨產業資安倡議。Apple、Google、Microsoft 等全球大型企業都有參與,目標是利用其次世代 AI 模型「Claude Mythos Preview」,提前偵測並修補關鍵基礎設施與開源軟體的漏洞。


總結

我整理了一下剛推出的 Claude Opus 4.8。

  • 主角是 「誠實性」:更容易主動說出自己的錯誤與不確定之處
  • 新功能是 effort 選擇/動態工作流程/API 更新 三大項
  • 高速(fast)模式可用 2.5 倍速度、1/3 價格
  • 下一步有 更便宜的 Opus 級模型,以及更高一階的 Mythos 級

這雖然是「小幅進化」,但我還是很想實際試試看 AI 往「更誠實」的方向走,會有什麼感受。這篇就先幫想快速掌握的人整理到這裡。

參考資料


原文出處:https://qiita.com/kaichan_dot/items/a5234436a61194e24df7


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝12   💬4   ❤️1
464
🥈
alicec
📝1   ❤️2
87
#4
我愛JS
💬1  
3
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登