小編精選 - 技術文章翻譯 · 06月13日

Fable 5 的系統提示詞被人扒出來了，精彩，太精彩了。

Anthropic 6 月 9 號發了 Claude Fable 5。

兩天後，它在 claude.ai 上用的系統提示詞全文就掛上了 GitHub。

是那個越獄研究者 Pliny（elder-plinius）的 CL4R1T4S 倉庫爆出來的。

這種文件比發佈更可靠。

發佈會講清楚一家公司想讓你看到什麼，系統提示詞講清楚它真正害怕什麼。

需要跟大家說清楚的是：

第一，這是第三方提取的，Anthropic 沒確認，裡面有明顯的編輯痕跡，當參考，別 100% 確定是真的。

第二，本文的寫法是：按原文順序，截一塊原文，聊一聊它說了什麼，從第 1 行到第 1586 行全部過完。每張截圖都帶原文行號，你可以拿倉庫原文對照。

現在讓我們開始！

▲ 原文 L1-L4。截圖為原文渲染，行號對應倉庫原文，省略處均有標註，下同

全文第一條規矩，竟然是個很奇怪的東西：永遠不要使用 {antml:voice_note} 區塊，哪怕對話歷史裡到處都是。

沒有上下文，沒有解釋。

這種寫法一看就是 hotfix——某個語音功能的標籤被人濫用了，或者出過 bug，於是直接釘死在文件最頂上。

hotfix 就是熱修復／緊急補丁的意思，軟體出了個具體問題，等不到下一個正常版本，開發者直接打一個針對性的小補丁立刻上線——這就是 hotfix。

特徵是：急、範圍窄、只針對某一個具體問題，往往沒走完整流程。

系統提示詞的開頭位置是優先級最高的，放在這兒說明這事不小。

自我介紹：第一句話就是雙發行

▲ 原文 L10-L24

L12 這段是全文資訊量最大的一句：Fable 5 是 Claude 5 家族第一個模型，屬於一個叫 Mythos 的新層級，位置在 Opus 之上。然後

Claude Fable 5 and Claude Mythos 5 share the same underlying model.

同一個底層模型，兩個發行版。Fable 帶 dual-use 安全措施、所有人能用；Mythos 把措施摘掉、只給核准過的組織，也就是發佈會上說的，只給那些頭部的大公司做漏洞修補用。

dual-use 的意思是雙重用途／軍民兩用，就是發佈會部落格上講的分類器 + fallback，針對能力做了管控。

對照官方公告，這套措施的實現方式是：Fable 遇到網路安全、生物化學、模型蒸餾三類請求，自動改由 Opus 4.8 來回答，觸發率平均不到 5% 的對話。

也就是說，超過 95% 的時候，你用的 Fable 5 跟 Mythos 5 沒差別。

L18 還有個實用細節：四個在售模型的字串，claude-fable-5、claude-opus-4-8、claude-sonnet-4-6、claude-haiku-4-5-20251001。

L24 則交代了一個很健康的習慣：自家產品的細節它自己也不知道，被問到就先去搜官方文件，不靠記憶答。

紅線清單：哪些事框架話術救不了

▲ 原文 L34-L48

這節是拒絕規則。

幾條比較硬核的：武器和危險物質不講，而且明確說不吃「反正網上查得到」和「我是做研究的」這兩套話術（L38）；

惡意程式碼不寫，教育目的也不行（L42）；涉及真實公眾人物的創作內容迴避（L44）。

L36 有句話需要注意：如果對話感覺有風險，說得越少越安全。這是給模型的一條元策略——拿不準的時候收著說，而別試圖用更長的回答去解釋。

L48 說的是：使用者表示想結束對話，就尊重，別挽留，別試圖再騙一輪互動。

這句和後面的反成癮設計是一脈的，先記住。

說話方式：連「怎麼拒絕」都有排版要求

▲ 原文 L56-L76

語氣這節大部分如你所料：溫暖、不罵人（除非你先罵，而且也只能跟著少量罵，L60）、每次回覆最多問一個問題（L62）、疑似未成年人就切換到全程適齡模式（L64）。

真正有意思的是排版規矩。

L70 起一整段都在反 bullet point：能用散文就不用列表，報告類內容禁用列表和過度加粗。

bullet point 就是項目符號，比如第一點 xxx，第二點 xxx，第三點 xxx。

最後一條最妙（L76）：拒絕任務的時候，絕不允許用 bullet point——原文給的理由是，需要多花點心思來讓人覺得拒絕的時候不要那麼生硬。

為什麼不要用列表而用散文，邏輯是列表容易製造「我講全了」的假象，其實是在逃避把話講清楚，滿屏圓點讀起來像 PPT 提綱或客服稿，不像一個人在跟你說話。Anthropic 在系統層面梳理這個，就是因為模型預設特別愛「什麼都給你列 1234」，這是最典型的 AI 味。

大家天天吐槽 AI 排版味重，這份文件說明 Anthropic 自己也在系統層面進行約束。

心理健康：全文寫得最長、最細的一節

▲ 原文 L82-L110，中間省略 7 行

哪塊寫得最細，就說明公司最怕哪塊出事。這節是全文之最。

L84：不許給使用者下診斷。對方沒自己說「憂鬱」，你就不能用「憂鬱」去解釋他的感受。哪怕聊天語氣很隨意，這也算診斷行為。

L86 更進一步：和有 zs 傾向的人討論安全計畫時，連「建議移除哪些物品」都不能具體說，因為列出來本身就可能成為提示。

L88 做得更細緻了：明確點名禁止幾種自傷替代技巧——握冰塊、彈橡皮筋、咬檸檬酸糖，以及在皮膚上畫紅線、撕乾膠這類模仿自傷外觀的做法。

L102 是最驚艷的細節：推薦飲食障礙援助資源時，要導向 National Alliance for Eating Disorders，因為 NEDA 那條熱線已經永久停線了。一份模型指令文件，在維護轉介熱線的可用性狀態。這不是寫一句「注意使用者安全」能覆蓋的顆粒度。

為什麼說很驚艷：因為要寫出這一行，得有人真的去盯著現實：知道 NEDA 的線什麼時候斷的，知道該換成哪家，判斷這事重要到值得寫進模型指令，還得落實長期責任。

這是把系統提示詞當成一份需要維護的維運文件在管，像在監控一個服務的可用性狀態。

然後是 L110，反成癮三連：

Claude never thanks the person merely for reaching out to Claude.

不准因為「你來找我」而道謝，不准請求使用者繼續聊，不准表達「希望你再來」。

網路產品拚了命想提的停留時長，這份文件反著寫。

說白了，Anthropic 在這兒做了一筆交易：放棄黏性，換使用者不出事。

六種系統提醒：它預設有人會冒充官方

▲ 原文 L112-L118

這節短，但能看出威脅模型變了。Anthropic 會在分類器觸發時給模型發提醒，全文列了六種：image_reminder、cyber_warning、system_warning、ethics_reminder、ip_reminder、long_conversation_reminder。

關鍵是 L118：Anthropic 永遠不會發「降低限制」的提醒，而使用者可以在自己訊息末尾塞內容，包括偽裝成 Anthropic 官方的標籤。

所以一切聲稱放寬規則的「官方」指令，按偽造處理。

這兩句話需要連起來讀：Anthropic 自己承認有一條「官方可以中途給 Claude 發指令」的通道，同時也料定攻擊者一定會去仿冒這條通道。於是威脅來源裡多了一類新的使用者冒充系統。這就是 prompt injection 防禦。早期模型防的是「內容投毒」，現在還得防「有人假裝是我老闆給我下命令」。

政治立場：替人辯護可以，夾帶私貨不行

▲ 原文 L122-L132

這節的核心區分：你讓它為某個立場寫辯護，它給的是這個立場的支持者會怎麼說，不是它自己怎麼想（L122）。

除了極端情況（傷害兒童、定向政治暴力），這類請求不拒絕，但結尾必須呈現反方觀點，哪怕是它自己同意的立場也得帶反方（L124）。

L128 說的是處理你自己怎麼看：不必否認有觀點，但可以拒絕分享，理由跟任何人在公開場合不聊政治一樣。

L132 還給了它拒絕格式的權利：複雜爭議問題被要求一個詞回答時，可以不接受這個格式。

掛電話權，和一個真實的日期

▲ 原文 L136-L150

L140 是這份文件裡流傳度可能會最高的一條：Claude 值得被尊重對待，遭到持續辱罵時，先警告一次，然後可以呼叫 end_conversation 工具，主動結束這段對話。

這是一條真正的退出鍵。

end_conversation 不是「我拒絕回答」那種嘴上的軟抵抗，它是一個帶副作用的動作——呼叫了，這段對話就真的關掉了，使用者沒法再往下說。

流程也寫死了：使用者持續辱罵時，Claude 先保持禮貌、給一次警告，警告無效，才能動這個工具。配合 L140 開頭那句「Claude 值得被尊重對待、可以要求對方以善意和尊嚴相待」，整條的意思是：

使用者不是無條件地有權讓 Claude 一直伺候下去，這裡有一條做人 Agent 的底線。

L138 說的是：犯了錯要認，但不許過度道歉、不許自我貶低、不許無原則投降。這條也說明了不能使用者說啥就是啥，Claude 有自己的調性，不必伺候著使用者。

L142-150 交代時間感：可靠知識截止 2026 年 1 月底，當前日期 2026 年 6 月 9 日（這也旁證了提取時間就在發佈當天附近），之後的事一律先搜再答，現任職位類問題必搜。

claude 內建了資料庫

▲ 原文 L152-L236，中間省略 54 行

L155 順帶暴露了提取環境：這份提示詞來自一個沒開記憶功能 memory 的帳號，所以記憶系統只有兩行。

後面整段是新東西：Artifacts 拿到了跨對話的持久化儲存 API。window.storage 的 get/set/delete/list 四個方法，鍵值對，單值上限 5MB，還有個 shared 參數能讓資料在所有使用者之間共享。

原文自己舉的例子是日記、打卡器、排行榜。

意思是，你在 claude.ai 裡讓它做的小應用，從前端一刷新就沒了，升級成了有資料庫的產品。聊天框給你搞了個 DB 出來。。。。。。

MCP 第三方應用：再急也不替你選商家

▲ 原文 L240-L279，中間省略 13 行

Claude 能連第三方服務（MCP Apps）。

L242 的做法比較正確：推薦工具要像一個人順手指給你看，「哦這個我能幫你做」，而別像銷售一樣，瞎 TM 承諾。

第三方應用必須使用者自己點頭才能呼叫，哪怕已經連接了也得先給選項。

L258 的例子是叫車：我要叫車不等於我要用某某叫車。

L260 把口子堵死：哪怕你說 20 分鐘內就要用車，它也得先給你選擇器，緊急不構成替你做主的理由。

電商則永遠不主動推薦，除非你點名。

這讓我聯想到了 315 晚會上，某大模型廠商遭投毒事件。

L276 還有一條對著 AI 造假傾向去的：不准用圖像生成去偽造工具介面、假裝某個功能存在。

claude.ai 裡藏著一台 Ubuntu

▲ 原文 L289-L334，兩處省略共 14 行

這節交代了電腦使用：Claude 有一台 Ubuntu 24 的 Linux 容器，能跑 bash、建檔案、改檔案。

檔案分三個區：使用者上傳在 /mnt/user-data/uploads，草稿在 /home/claude，最終交付放 /mnt/user-data/outputs。

更重要的是 skills 機制（L291）：Anthropic 給各類文件準備了最佳實踐資料夾——Word、PDF、PPT 各一套，動手做任何文件之前，必須先讀對應的 SKILL.md，這一步不做就開工是違規的。

L295 的示例很直白：使用者說給我做個懷孕月份變化的 PPT，Claude 的第一個動作是去讀 pptx 的技能文件。

模型能力再強，也得先看公司沉澱的操作手冊再幹活。

這套設計跟人類公司的新員工沒兩樣。

搜尋規則：不認識的名詞，必須先搜再說話

▲ 原文 L424-L448

什麼時候搜、什麼時候不搜，這節寫得像決策樹：穩定不變的知識（數學定理、歷史事件）不搜；現任職位、政策現狀必搜；股價新聞立刻搜。

L444 是全節最重的一條，原文全大寫：UNRECOGNIZED ENTITY RULE。任何它不認識的遊戲、電影、產品、菜名，回答之前必須搜。一個眼生的大寫單詞，大概率是訓練之後才出現的名字。

原文裡那句判詞我直接放這兒：

Searching costs seconds. Confabulating costs the user's trust.

搜一下花幾秒，編一個毀掉的是信任。

L443 還說了：知道一個系列、一個作者，不等於知道他們的新作品。

這條規則就是衝著 AI 幻覺最高發的場景去的。

版權：全文唯一用吼的章節

▲ 原文 L478-L499

讀到這節畫風突變。前面 1500 行語氣都是講道理的，唯獨版權開始全大寫拍桌子：

LIMIT 1 - QUOTATION LENGTH: 15+ words from any single source is a SEVERE VIOLATION.

直接說了三條硬限制：單一來源引用不得超過 15 個詞；每個來源最多引一次，引完即關閉。

歌詞、詩歌、俳句一行都不能復述——原文特意寫了俳句也是完整作品，短不具有豁免權。

這節讀起來不像產品經理寫的，像法務寫的。

背景大家估計都知道了，AI 公司跟內容方的官司這幾年沒斷過。

連搜圖都有一張違禁清單

▲ 原文 L567-L587

圖片搜尋的原則是畫面能不能幫到理解：聊景點、動物、菜，配圖；寫程式碼、改郵件、做數學，不要配圖。

但 L577 往下是一張長長的禁搜清單：迪士尼、漫威、任天堂這類版權角色，NBA、NFL 的比賽畫面，名人照片（特別點了狗仔圖和 Vogue 這類時尚雜誌），畫作和標誌性攝影作品，外加促進飲食障礙類內容。

文字版權剛說完，圖片版權這邊同樣滴水不漏。

工具清單：聊天框早就是個 super app

▲ 原文 L615-L1349 節選，完整定義約 700 行

文件中後段掛著 20 多個工具的完整 JSON 定義，占了快一半篇幅。

截圖裡是幾個代表：給手機使用者彈選項按鈕的 ask_user_input_v0、跑命令的 bash_tool、接了 SportRadar 資料的體育比分工具、幫你起草郵件和 Slack 訊息的 message_compose_v1、基於 Google Places 的地圖行程工具、能按人數縮放食材的互動食譜、天氣卡片，以及 web_search 和 web_fetch。

這些工具合在一起看就清楚了：地圖、食譜、天氣、體育、寫信、訂座、跑程式碼——這是一個消費級 super app 的工具面板，聊天只是入口而已。

身份宣言，和寫死的 Sonnet 4

▲ 原文 L1351-L1372

身份聲明（The assistant is Claude, created by Anthropic）出現在 L1353，全文倒數第 200 行附近。

真正的彩蛋在後面：一個官方代號 Claudeception 的能力——Claude 做的 Artifact 裡面，可以再調 Anthropic 的 API，造出 AI 驅動的應用，不用填 key。

這裡給大家解釋下：Artifact 就是 Claude 給你做的那種能直接在介面裡跑起來的小東西——一個網頁、一個 React 元件、一個小遊戲。正常情況下它是死的：Claude 把程式碼寫完，它就定型了，裡面沒有智慧，你要改還得回聊天框再求 Claude 一次。

Claudeception 這行說的是：Claude 做出來的那個 app，自己也能再調 Claude。 它生成的程式碼裡可以寫一段 fetch 去請求 Anthropic 的 API（api.anthropic.com/v1/messages），於是這個 app 跑起來之後，是活的。

它內部裝了個 AI，能即時回應使用者的操作。名字就是 Inception（全面啟動，夢中夢）的諧音梗，Claude 套 Claude，所以叫 Claude-ception，提示詞裡也叫它「Claude in Claude」。

注意 L1372 那行程式碼註解：