我把 Claude Code 切到 Fable 5,先別急著興奮

大家好,我是孟健。

Anthropic 在 6 月 9 日發布了 Claude Fable 5 和 Claude Mythos 5,我當天就把自己的 Claude Code 切了過去。但這篇文章不是來勸你趕緊衝的。

切模型只要改一行設定,真正要改的是另外三樣東西:任務寫法、成本預期、長任務管理方式。這三樣不改,換什麼模型都一樣。

Anthropic 官方發布 Fable 5 和 Mythos 5

01 我已經切了,但先別把它當免費升級

先交代我本地的狀態,這是真實環境,不是截圖擺拍:

text 體驗AI代碼助手 代碼解讀複製代碼$ claude --version
2.1.170 (Claude Code)

$ cat ~/.claude/settings.json | grep model
  "model": "claude-fable-5[1m]",

$ claude --print '只輸出當前你使用的模型名稱;如果無法知道,輸出 unknown。'
claude-fable-5

切換本身沒有任何門檻,settings.json 裡把 model 改成 claude-fable-5 就行。但要把話說在前面:到目前為止,我只是已切換並做了基礎確認——版本號對、模型名對、簡單呼叫正常返回,僅此而已。

我還沒有拿任何大型專案去系統性驗證它,所以這篇文章裡不會出現「我實測它強多少」這種話,等真的做完驗證我會單獨寫一篇。今天先把決策層面的事講清楚。

另外幾個官方事實也要交代,免得大家帶著錯誤預期上車。Fable 5 是第一個 generally available 的 Mythos-class 模型,這個級別在 Opus class 之上。

它和 Mythos 5 是同一個底層模型的兩種配置,差別在於 Fable 5 加了 cyber 和 biology 方向的 safeguards,而 Mythos 5 只開放給少數經過審查的合作夥伴,走 Project Glasswing 這類可信存取計畫。

Claude Mythos 5 官方頁面顯示其受限存取

也就是說,普通開發者能摸到的天花板就是 Fable 5。

02 最容易誤判的是訂閱窗口和之後的帳單

這是我覺得最多人會踩的坑:Fable 5 現在能在訂閱裡直接用,但這是臨時的。

官方的安排是:6 月 9 日到 22 日,Fable 5 臨時包含在 Pro / Max / Team / seat-based Enterprise 訂閱裡。6 月 23 日之後,如果容量不延期,它會從訂閱中移除,後續使用要走 usage credits,等容量允許後再恢復為標準訂閱模型。

官方定價文件給的 API 價格是 10/millioninputtokens,10 / million input tokens,10/millioninputtokens,50 / million output tokens。同一份文件還寫了兩個數字:prompt caching 對 input token 有 90% 折扣,US-only inference 在此基礎上乘 1.1 倍——這兩個數字都來自官方定價說明,不是我算出來的。

23 號之後的成本預期,我建議你現在就按三種情形想清楚,而不是到時候被動反應。第一種,窗口延期、訂閱繼續覆蓋,那是白拿的,繼續用。

第二種,按官方說法移出訂閱、走 usage credits,

這時每次呼叫都是真金白銀——按官方單價粗算一筆帳,一個跑幾小時的長任務,輸出幾十萬 token 很正常,光 output 就可能是十幾二十美元一次;

input 端靠 prompt caching 能壓下來不少,但前提是你的任務結構穩定、上下文可重用。第三種,恢復為標準訂閱模型但配額收緊,那就要在訂閱額度內排優先級。

三種情形下結論一致:這個模型只配跑「大活」。拿 $50 / million output 的模型改 typo、寫正則、調樣式,純屬燒錢。

還有一點要知道:Fable 5 帶 safeguards,檢查範圍包括目前訊息、對話歷史、memory、connector 內容、連網搜尋結果和上傳檔案。

觸發敏感請求時,系統可能自動把你切到 Claude Opus 4.8,Claude、Cowork、Claude Code 這些產品預設都開著自動模型切換。

Claude Help 說明 Fable 5 觸發 safeguards 後會切換模型

另外按官方說明,Mythos-class 模型要求 30 天資料保留用於 trust and safety,消費者方案沒有新增變化,主要影響的是 ZDR 組織。做企業合規的同學注意一下。

03 它真正值錢的地方,是長任務

官方 webinar 對 Fable 5 的描述是「works like a more seasoned engineer」:動手前先調查,能在數小時甚至數天裡維持上下文,會自己驗證自己的工作。

Anthropic 官方 webinar 將 Fable 5 描述為更成熟的工程師型模型

官方給的案例是 Stripe:5000 萬行 Ruby 程式碼庫的遷移,Fable 5 一天完成,人工估計需要一整個團隊幹兩個月。

再強調一次,這個 5000 萬行是 Anthropic 官方案例裡的數字,不是我的實踐,我也沒有 5000 萬行程式碼給它遷。

但這個案例透露的訊號很明確:這個模型的設計目標是「接一個大任務,自己跑完」,而我們過去用 Claude Code 的習慣是「我盯著,它一步步幹」。

這兩種工作方式對模型的要求完全不同,對人的要求也完全不同。

Fable 5 官方頁面強調長任務與複雜工作

過去模型跑長任務,最大的問題是中途跑偏你不知道、結果錯了你也不知道。

如果 Fable 5 真像官方描述的那樣能在長任務裡自己調查、自己驗證,那人的角色就從「監工」變成「發包方」。

監工只需要會喊停,發包方必須會寫合約。

04 任務分級:哪些活配得上它

既然單價擺在那,第一件事就是給手頭任務分級。我自己的分法是三檔。

值得上 Fable 5 的:人幹要超過半天、且影響面跨多個模組的活。

比如拖了幾個月的大重構、框架或依賴的大版本遷移、給老專案補一整套測試、需要先讀懂十幾個檔案才能下手的深層 bug 排查。

這類任務的共同點是調查成本高、鏈路長、中途狀態多——恰好是官方宣傳裡長任務自治能力的主場。

不值得的:單檔案小改動、改 typo、寫正則、調樣式、寫一段獨立的工具函式、問答式的「這段程式碼什麼意思」。

這些活原來的模型幹得一樣好,便宜得多,而且你本來就會立刻 review,長任務自治能力完全用不上。

中間地帶:code review、寫技術文件、生成遷移方案這類。我的判定標準是兩條。一,這個任務有沒有可機器判定的驗收標準?有測試指令兜底的,敢交給它跑長程;

只能靠人眼判斷好壞的,模型再強你也省不了 review 時間。二,出錯能不能低成本回滾?能回滾的放手幹,不能回滾的——動生產資料、改公共 API——不管哪個模型都得人盯著。

一句話:按「人時成本」和「可驗收程度」兩個維度打分,雙高的才餵給 Fable 5。

05 Claude Code 的提示詞,要改成任務書

這是我切到 Fable 5 之後改得最狠的一件事:不再發「幫我把登入頁改一下」這種話,而是發任務書。

模型能跑幾小時,你的指令就得撐得起幾小時——目標、邊界、驗收都得提前寫死,否則它跑得越久,偏得越遠。

我現在用的模板,可以直接抄:

markdown 體驗AI代碼助手 代碼解讀複製代碼# 任務:<一句話說清要交付什麼>

## 目標
- <做完後世界變成什麼樣,用結果描述,不用動作描述>

## 邊界
- 只允許改動:<目錄/檔案範圍>
- 禁止改動:<資料庫 schema / 公共 API / 設定檔等>
- 禁止引入新依賴,如確需,先停下來說明理由

## 驗收標準
- <可機器判定的條件 1,如:所有現有測試通過>
- <可機器判定的條件 2,如:新增功能有對應測試覆蓋>

## 測試指令
- pnpm test
- pnpm lint && pnpm build

## 回滾預案
- 全程在分支 feat/xxx 上工作,不碰 main
- 每完成一個獨立步驟 commit 一次,保證任意節點可回退

## 匯報要求
- 結束時輸出:改了哪些檔案、為什麼、測試結果原文
- 測試失敗就如實報失敗,禁止宣稱「已完成」

每個模組為什麼這樣寫,展開說一下。目標必須用結果描述而不是動作描述——「使用者可以用手機號登入」是結果,「加一個登入介面」是動作。

動作描述會讓模型幹完動作就停,結果描述才能讓它自己補齊中間缺的環節。

邊界是防 scope creep 的:長任務裡模型「順手」重構無關程式碼是最常見的跑偏方式,白紙黑字寫禁區,比事後撤銷便宜得多。驗收標準和測試指令是整份任務書的地基,

模型說「我做完了」不算數,測試指令的輸出才算數——這也是為什麼我把「測試結果原文」寫進匯報要求:要原文,不要它的轉述。

回滾預案是你敢放手的前提,任何一步可回退,你才輸得起。

匯報要求最後那條看著多餘,實際上是給模型的明確指令——把「如實報失敗」寫成任務要求,比事後發現它含糊其辭省心得多。

寫一份這樣的任務書要十分鐘。但對一個可能跑幾小時的任務來說,這十分鐘是整個流程裡槓桿率最高的十分鐘。

06 我的建議:用它做大活,不做雜活

把我的判斷擺出來。

第一,這兩週的訂閱窗口值得用,但要用在刀口上。

拿它跑一個你拖了很久的大重構、一次跨模組的遷移、一份完整的測試補齊,每跑一個就記下:花了多長時間、返工幾次、驗收一次過沒過。

別拿它幹補註解、調樣式這種雜活——雜活攢不出任何有效資料,還占額度。

第二,23 號是個決策點。

如果容量不延期,Fable 5 回到 usage credits 計費,那時候你需要的不是別人的評測,而是自己這兩週攢下的那份資料:哪類任務它明顯更強、強多少、值不值官方標價的 10/10 / 10/50。

沒有這份資料,到時候你只能在「跟風續費」和「拍腦袋放棄」之間二選一。

第三,也是我最想說的:模型升級是 Anthropic 的事,任務定義是你的事。

Fable 5 把「長任務自治」的能力交到了每個開發者手裡,但它沒法替你想清楚目標是什麼、邊界在哪、怎麼算做完。

同一個模型,有人發一句「幫我優化下程式碼」,有人發一份帶驗收標準和回滾預案的任務書,跑出來是兩個世界。

工具我已經切好了,一行設定的事。真正的分水嶺從來不在 settings.json 裡——在於你會不會把一個模糊的想法,寫成一份機器可以執行、可以驗收、可以回滾的任務書。

這個能力,模型再升三代也替代不了。


👋 我是孟健,前騰訊 T11 / 前字節技術 Leader,現在全職做 AI 編程。

🔥 更多 AI 編程實戰:

  • GitHub:@mengjian-github
  • 專欄:AI編程實戰

覺得有用?按讚+收藏 就是最大支持 🙏


原文出處:https://juejin.cn/post/7649577388315017259


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
361
🥈
我愛JS
💬1  
3
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登