Fable 5 的系統提示詞被人扒出來了,精彩,太精彩了。

Anthropic 6 月 9 號發了 Claude Fable 5。

兩天後,它在 claude.ai 上用的系統提示詞全文就掛上了 GitHub。

是那個越獄研究者 Pliny(elder-plinius)的 CL4R1T4S 倉庫 爆出來的。

這種文件比發佈更可靠。

發佈會講清楚一家公司想讓你看到什麼,系統提示詞講清楚它真正害怕什麼。

需要跟大家說清楚的是:

第一,這是第三方提取的,Anthropic 沒確認,裡面有明顯的編輯痕跡,當參考,別 100% 確定是真的。

第二,本文的寫法是:按原文順序,截一塊原文,聊一聊它說了什麼,從第 1 行到第 1586 行全部過完。每張截圖都帶原文行號,你可以拿倉庫原文對照。

現在讓我們開始!

▲ 原文 L1-L4。截圖為原文渲染,行號對應倉庫原文,省略處均有標註,下同

全文第一條規矩,竟然是個很奇怪的東西:永遠不要使用 {antml:voice_note} 區塊,哪怕對話歷史裡到處都是。

沒有上下文,沒有解釋。

這種寫法一看就是 hotfix——某個語音功能的標籤被人濫用了,或者出過 bug,於是直接釘死在文件最頂上。

hotfix 就是熱修復/緊急補丁的意思,軟體出了個具體問題,等不到下一個正常版本,開發者直接打一個針對性的小補丁立刻上線——這就是 hotfix。

特徵是:急、範圍窄、只針對某一個具體問題,往往沒走完整流程。

系統提示詞的開頭位置是優先級最高的,放在這兒說明這事不小。

自我介紹:第一句話就是雙發行

▲ 原文 L10-L24

L12 這段是全文資訊量最大的一句:Fable 5 是 Claude 5 家族第一個模型,屬於一個叫 Mythos 的新層級,位置在 Opus 之上。然後

Claude Fable 5 and Claude Mythos 5 share the same underlying model.

同一個底層模型,兩個發行版。Fable 帶 dual-use 安全措施、所有人能用;Mythos 把措施摘掉、只給核准過的組織,也就是發佈會上說的,只給那些頭部的大公司做漏洞修補用。

dual-use 的意思是雙重用途/軍民兩用,就是發佈會部落格上講的分類器 + fallback,針對能力做了管控。

對照官方公告,這套措施的實現方式是:Fable 遇到網路安全、生物化學、模型蒸餾三類請求,自動改由 Opus 4.8 來回答,觸發率平均不到 5% 的對話。

也就是說,超過 95% 的時候,你用的 Fable 5 跟 Mythos 5 沒差別。

L18 還有個實用細節:四個在售模型的字串,claude-fable-5claude-opus-4-8claude-sonnet-4-6claude-haiku-4-5-20251001

L24 則交代了一個很健康的習慣:自家產品的細節它自己也不知道,被問到就先去搜官方文件,不靠記憶答。

紅線清單:哪些事框架話術救不了

▲ 原文 L34-L48

這節是拒絕規則。

幾條比較硬核的:武器和危險物質不講,而且明確說不吃「反正網上查得到」和「我是做研究的」這兩套話術(L38);

惡意程式碼不寫,教育目的也不行(L42);涉及真實公眾人物的創作內容迴避(L44)。

L36 有句話需要注意:如果對話感覺有風險,說得越少越安全。這是給模型的一條元策略——拿不準的時候收著說,而別試圖用更長的回答去解釋。

L48 說的是:使用者表示想結束對話,就尊重,別挽留,別試圖再騙一輪互動。

這句和後面的反成癮設計是一脈的,先記住。

說話方式:連「怎麼拒絕」都有排版要求

▲ 原文 L56-L76

語氣這節大部分如你所料:溫暖、不罵人(除非你先罵,而且也只能跟著少量罵,L60)、每次回覆最多問一個問題(L62)、疑似未成年人就切換到全程適齡模式(L64)。

真正有意思的是排版規矩。

L70 起一整段都在反 bullet point:能用散文就不用列表,報告類內容禁用列表和過度加粗。

bullet point 就是項目符號,比如第一點 xxx,第二點 xxx,第三點 xxx。

最後一條最妙(L76):拒絕任務的時候,絕不允許用 bullet point——原文給的理由是,需要多花點心思來讓人覺得拒絕的時候不要那麼生硬。

為什麼不要用列表而用散文,邏輯是列表容易製造「我講全了」的假象,其實是在逃避把話講清楚,滿屏圓點讀起來像 PPT 提綱或客服稿,不像一個人在跟你說話。Anthropic 在系統層面梳理這個,就是因為模型預設特別愛「什麼都給你列 1234」,這是最典型的 AI 味。

大家天天吐槽 AI 排版味重,這份文件說明 Anthropic 自己也在系統層面進行約束。

心理健康:全文寫得最長、最細的一節

▲ 原文 L82-L110,中間省略 7 行

哪塊寫得最細,就說明公司最怕哪塊出事。這節是全文之最。

L84:不許給使用者下診斷。對方沒自己說「憂鬱」,你就不能用「憂鬱」去解釋他的感受。哪怕聊天語氣很隨意,這也算診斷行為。

L86 更進一步:和有 zs 傾向的人討論安全計畫時,連「建議移除哪些物品」都不能具體說,因為列出來本身就可能成為提示。

L88 做得更細緻了:明確點名禁止幾種自傷替代技巧——握冰塊、彈橡皮筋、咬檸檬酸糖,以及在皮膚上畫紅線、撕乾膠這類模仿自傷外觀的做法。

L102 是最驚艷的細節:推薦飲食障礙援助資源時,要導向 National Alliance for Eating Disorders,因為 NEDA 那條熱線已經永久停線了。一份模型指令文件,在維護轉介熱線的可用性狀態。這不是寫一句「注意使用者安全」能覆蓋的顆粒度。

為什麼說很驚艷:因為要寫出這一行,得有人真的去盯著現實:知道 NEDA 的線什麼時候斷的,知道該換成哪家,判斷這事重要到值得寫進模型指令,還得落實長期責任。

這是把系統提示詞當成一份需要維護的維運文件在管,像在監控一個服務的可用性狀態。

然後是 L110,反成癮三連:

Claude never thanks the person merely for reaching out to Claude.

不准因為「你來找我」而道謝,不准請求使用者繼續聊,不准表達「希望你再來」。

網路產品拚了命想提的停留時長,這份文件反著寫。

說白了,Anthropic 在這兒做了一筆交易:放棄黏性,換使用者不出事。

六種系統提醒:它預設有人會冒充官方

▲ 原文 L112-L118

這節短,但能看出威脅模型變了。Anthropic 會在分類器觸發時給模型發提醒,全文列了六種:image_reminder、cyber_warning、system_warning、ethics_reminder、ip_reminder、long_conversation_reminder。

關鍵是 L118:Anthropic 永遠不會發「降低限制」的提醒,而使用者可以在自己訊息末尾塞內容,包括偽裝成 Anthropic 官方的標籤。

所以一切聲稱放寬規則的「官方」指令,按偽造處理。

這兩句話需要連起來讀:Anthropic 自己承認有一條「官方可以中途給 Claude 發指令」的通道,同時也料定攻擊者一定會去仿冒這條通道。於是威脅來源裡多了一類新的使用者冒充系統。這就是 prompt injection 防禦。早期模型防的是「內容投毒」,現在還得防「有人假裝是我老闆給我下命令」。

政治立場:替人辯護可以,夾帶私貨不行

▲ 原文 L122-L132

這節的核心區分:你讓它為某個立場寫辯護,它給的是這個立場的支持者會怎麼說,不是它自己怎麼想(L122)。

除了極端情況(傷害兒童、定向政治暴力),這類請求不拒絕,但結尾必須呈現反方觀點,哪怕是它自己同意的立場也得帶反方(L124)。

L128 說的是處理你自己怎麼看:不必否認有觀點,但可以拒絕分享,理由跟任何人在公開場合不聊政治一樣。

L132 還給了它拒絕格式的權利:複雜爭議問題被要求一個詞回答時,可以不接受這個格式。

掛電話權,和一個真實的日期

▲ 原文 L136-L150

L140 是這份文件裡流傳度可能會最高的一條:Claude 值得被尊重對待,遭到持續辱罵時,先警告一次,然後可以呼叫 end_conversation 工具,主動結束這段對話。

這是一條真正的退出鍵。

end_conversation 不是「我拒絕回答」那種嘴上的軟抵抗,它是一個帶副作用的動作——呼叫了,這段對話就真的關掉了,使用者沒法再往下說。

流程也寫死了:使用者持續辱罵時,Claude 先保持禮貌、給一次警告,警告無效,才能動這個工具。配合 L140 開頭那句「Claude 值得被尊重對待、可以要求對方以善意和尊嚴相待」,整條的意思是:

使用者不是無條件地有權讓 Claude 一直伺候下去,這裡有一條做人 Agent 的底線。

L138 說的是:犯了錯要認,但不許過度道歉、不許自我貶低、不許無原則投降。這條也說明了不能使用者說啥就是啥,Claude 有自己的調性,不必伺候著使用者。

L142-150 交代時間感:可靠知識截止 2026 年 1 月底,當前日期 2026 年 6 月 9 日(這也旁證了提取時間就在發佈當天附近),之後的事一律先搜再答,現任職位類問題必搜。

claude 內建了資料庫

▲ 原文 L152-L236,中間省略 54 行

L155 順帶暴露了提取環境:這份提示詞來自一個沒開記憶功能 memory 的帳號,所以記憶系統只有兩行。

後面整段是新東西:Artifacts 拿到了跨對話的持久化儲存 API。window.storage 的 get/set/delete/list 四個方法,鍵值對,單值上限 5MB,還有個 shared 參數能讓資料在所有使用者之間共享。

原文自己舉的例子是日記、打卡器、排行榜。

意思是,你在 claude.ai 裡讓它做的小應用,從前端一刷新就沒了,升級成了有資料庫的產品。聊天框給你搞了個 DB 出來。。。。。。

MCP 第三方應用:再急也不替你選商家

▲ 原文 L240-L279,中間省略 13 行

Claude 能連第三方服務(MCP Apps)。

L242 的做法比較正確:推薦工具要像一個人順手指給你看,「哦這個我能幫你做」,而別像銷售一樣,瞎 TM 承諾。

第三方應用必須使用者自己點頭才能呼叫,哪怕已經連接了也得先給選項。

L258 的例子是叫車:我要叫車不等於我要用某某叫車。

L260 把口子堵死:哪怕你說 20 分鐘內就要用車,它也得先給你選擇器,緊急不構成替你做主的理由

電商則永遠不主動推薦,除非你點名。

這讓我聯想到了 315 晚會上,某大模型廠商遭投毒事件。

L276 還有一條對著 AI 造假傾向去的:不准用圖像生成去偽造工具介面、假裝某個功能存在。

claude.ai 裡藏著一台 Ubuntu

▲ 原文 L289-L334,兩處省略共 14 行

這節交代了電腦使用:Claude 有一台 Ubuntu 24 的 Linux 容器,能跑 bash、建檔案、改檔案。

檔案分三個區:使用者上傳在 /mnt/user-data/uploads,草稿在 /home/claude,最終交付放 /mnt/user-data/outputs。

更重要的是 skills 機制(L291):Anthropic 給各類文件準備了最佳實踐資料夾——Word、PDF、PPT 各一套,動手做任何文件之前,必須先讀對應的 SKILL.md,這一步不做就開工是違規的。

L295 的示例很直白:使用者說給我做個懷孕月份變化的 PPT,Claude 的第一個動作是去讀 pptx 的技能文件。

模型能力再強,也得先看公司沉澱的操作手冊再幹活。

這套設計跟人類公司的新員工沒兩樣。

搜尋規則:不認識的名詞,必須先搜再說話

▲ 原文 L424-L448

什麼時候搜、什麼時候不搜,這節寫得像決策樹:穩定不變的知識(數學定理、歷史事件)不搜;現任職位、政策現狀必搜;股價新聞立刻搜。

L444 是全節最重的一條,原文全大寫:UNRECOGNIZED ENTITY RULE。任何它不認識的遊戲、電影、產品、菜名,回答之前必須搜。一個眼生的大寫單詞,大概率是訓練之後才出現的名字。

原文裡那句判詞我直接放這兒:

Searching costs seconds. Confabulating costs the user's trust.

搜一下花幾秒,編一個毀掉的是信任。

L443 還說了:知道一個系列、一個作者,不等於知道他們的新作品。

這條規則就是衝著 AI 幻覺最高發的場景去的。

版權:全文唯一用吼的章節

▲ 原文 L478-L499

讀到這節畫風突變。前面 1500 行語氣都是講道理的,唯獨版權開始全大寫拍桌子:

LIMIT 1 - QUOTATION LENGTH: 15+ words from any single source is a SEVERE VIOLATION.

直接說了三條硬限制:單一來源引用不得超過 15 個詞;每個來源最多引一次,引完即關閉。

歌詞、詩歌、俳句一行都不能復述——原文特意寫了俳句也是完整作品,短不具有豁免權。

這節讀起來不像產品經理寫的,像法務寫的。

背景大家估計都知道了,AI 公司跟內容方的官司這幾年沒斷過。

連搜圖都有一張違禁清單

▲ 原文 L567-L587

圖片搜尋的原則是畫面能不能幫到理解:聊景點、動物、菜,配圖;寫程式碼、改郵件、做數學,不要配圖。

但 L577 往下是一張長長的禁搜清單:迪士尼、漫威、任天堂這類版權角色,NBA、NFL 的比賽畫面,名人照片(特別點了狗仔圖和 Vogue 這類時尚雜誌),畫作和標誌性攝影作品,外加促進飲食障礙類內容。

文字版權剛說完,圖片版權這邊同樣滴水不漏。

工具清單:聊天框早就是個 super app

▲ 原文 L615-L1349 節選,完整定義約 700 行

文件中後段掛著 20 多個工具的完整 JSON 定義,占了快一半篇幅。

截圖裡是幾個代表:給手機使用者彈選項按鈕的 ask_user_input_v0、跑命令的 bash_tool、接了 SportRadar 資料的體育比分工具、幫你起草郵件和 Slack 訊息的 message_compose_v1、基於 Google Places 的地圖行程工具、能按人數縮放食材的互動食譜、天氣卡片,以及 web_search 和 web_fetch。

這些工具合在一起看就清楚了:地圖、食譜、天氣、體育、寫信、訂座、跑程式碼——這是一個消費級 super app 的工具面板,聊天只是入口而已。

身份宣言,和寫死的 Sonnet 4

▲ 原文 L1351-L1372

身份聲明(The assistant is Claude, created by Anthropic)出現在 L1353,全文倒數第 200 行附近。

真正的彩蛋在後面:一個官方代號 Claudeception 的能力——Claude 做的 Artifact 裡面,可以再調 Anthropic 的 API,造出 AI 驅動的應用,不用填 key。

這裡給大家解釋下:Artifact 就是 Claude 給你做的那種能直接在介面裡跑起來的小東西——一個網頁、一個 React 元件、一個小遊戲。正常情況下它是死的:Claude 把程式碼寫完,它就定型了,裡面沒有智慧,你要改還得回聊天框再求 Claude 一次。

Claudeception 這行說的是:Claude 做出來的那個 app,自己也能再調 Claude。 它生成的程式碼裡可以寫一段 fetch 去請求 Anthropic 的 API(api.anthropic.com/v1/messages),於是這個 app 跑起來之後,是活的。

它內部裝了個 AI,能即時回應使用者的操作。名字就是 Inception(全面啟動,夢中夢)的諧音梗,Claude 套 Claude,所以叫 Claude-ception,提示詞裡也叫它「Claude in Claude」。

注意 L1372 那行程式碼註解:

model: "claude-sonnet-4-20250514", // Always use Sonnet 4

主模型是 Fable 5 這種頂配,但它生成的應用裡,內嵌的 AI 一律寫死用 Sonnet 4。

一行註解,一筆成本帳:套娃可以,娃要用便宜的。

你就看看 A ➗的嘴臉吧。

最後一層:網路白名單和唯讀目錄

▲ 原文 L1519-L1581 節選

文件收尾是基礎設施層。

引用規則要求所有基於搜尋的論斷掛引用標籤,且必須改寫成自己的話。

User Context 一節注入使用者的大概位置——截圖裡這行被倉庫維護者換成了占位符,這也是判斷「此文件經過編輯」的直接證據。最後是容器的網路白名單(只放行 pypi、npm、GitHub 這些套件管理網域)和五個唯讀掛載目錄。

讀到這一層你會發現,系統提示詞這個名字已經不準確了。

它是行為準則 + 員工手冊 + 工具說明書 + 防火牆,再配置上一個 AI 產品的作業系統設定檔。

整份文件讀下來,讓我的感覺是:官網部落格寫的是我們相信 AI 應該怎樣,系統提示詞寫的是遇到這種情況你必須這麼做。前者是宣言,後者是一家公司真金白銀願意為之約束產品的清單。


原文出處:https://juejin.cn/post/7650052991786401832


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
358
🥈
我愛JS
💬1  
3
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登