你的 AI 不好用,可能只是它在演你,或者在鬧情緒

你在用 AI 開發的時候,有沒有經常遇到:**明明我已經提供了圖片或者附件說明,AI 也一本正經地表示我看到了,甚至描繪得有聲有色,然後最終給了你一坨“大辯”的經歷**?

如果有,不要懷疑是自己使用的方式有什麼問題,實際上這可能 AI 根本沒讀你的圖片,它只是一本正經地在胡說八道,你做了豐富的知識庫,提供了各種多模態的資源輸入,但是它「已回不讀」

這是一篇沒有直接證據的組合推論

最近史丹佛發表的論文《Mirage: The Illusion of Visual Understanding》(arXiv:2603.21687v2) 和 Anthropic 的新論文 《Emotion concepts and their function in a large language model》 ,剛好可以用來做這個推論,它們是兩篇毫無直接關聯的內容,但是我們可以根據內容裡相關的證據來反向印證

就像是下面這個例子,我提供圖片和各種公式說明的附件,但是最終效果上看起來,它並沒有真的去讀或者理解我發的圖片和附件,它只是在根據我的文本內容去推斷結果,然後透過最短路徑來完成它猜測的效果,出來的東西越改越魔幻:

儘管每次模型都會說:「我看到了xxxx」,但是實際上你不知道它看沒看,或者它可能只是在蒙,然後又浪費了一波 token,甚至大多數時候它可以說得言之鑿鑿,面對我的辱罵和高壓各種承認錯誤,甚至把問題都描述得很清楚,但是結果上它又像是什麼都沒看:

其他的例子也很多,比如你發給 AI 的內容連結或者 Github 連結(沒有 github mcp 和 token 時),實際上它根本就訪問不到完整內容,但有時候它就是不說,而是會透過各種途徑去猜,然後信誓旦旦地和你解釋。

當然,實際上「猜」這個行為,本來就是 AI 的本質,大模型本來就是機率學,「它一直在預測你的下一個詞」,那它是怎麼猜?

首先我要說明的是,這是兩篇毫無直接相關的論文組合出來的推論。史丹佛的 Mirage 論文證明的是:

  • 模型在無圖時會進入一種類似「預設有圖存在」的 mirage-mode
  • 顯式要求它去猜但不给圖,會讓表現下降
  • 基準測試裡有大量可被非視覺線索、隱藏結構、資料汙染、文本模式利用的空間

而 Anthropic 的論文證明的是:

  • 模型內部存在與情緒相關的表徵(emotion-related representations)
  • 情緒表徵會因果性地影響某些行為,比如勒索、reward hacking(獎勵駭取)、偏好選擇
  • 後訓練(post-training)會塑造這些向量的激活方式

從 Anthropic 的論文可以總結為:模型會產生「情緒」,情緒會影響結果;嚴格來說應該是模型內部存在與 emotion concepts 相關的功能性表徵,這些表徵會因果影響部分行為。也就是說這些 emotion 並不代表模型真的有主觀情感體驗,只是對應的特徵被激活。

在我看來,Anthropic 和史丹佛的論文有一個不相關但相似的觀點。史丹佛的論文指出:如果你告訴一個模型:「這裡有一張圖片」,即使實際上沒有,但它的結果表現大概率會變好(在應該有圖的場景下),而如果把 Anthropic 的發現放在一起理解:大模型的幻覺本質不是純粹「瞎編」,而是在內部「情緒向量」驅動下做出選擇,兩者放在一起看,就像是在有自信的情緒下自動補全一個虛假的世界(Mirage),並在其中推理

因為史丹佛的論文說的是:模型在沒有圖像時也會生成描述,並且沒有任何不確定性或缺乏信心的表達,沒有 uncertainty,沒有 lack of confidence。

當然,這也是史丹佛論文指出的一個嚴重問題:模型在「沒有輸入」的情況下,會自己構造出一個完整的輸入世界並進行推理。這裡最有趣的是,前沿模型(GPT、Gemini、Claude)在完全沒有輸入圖像的情況下,還能在醫學基準(如 VQA-Rad、MicroVQA、MedXpertQA-MM)上保留 70–80% 的性能,Mirage Score 高達 60–99%,有時甚至接近有圖像時的準確率(例如 GPT-5.1 在 VQA-Rad 上無圖 90.5% vs 有圖 93.5%):

這難道就是傳說中的,「手中無劍,心中有劍」的境界?我沒看到你的胸片,但我可以透過幻想的胸片判斷你有病。

理解這裡的問題沒有?模型會在沒有任何圖片輸入的情況下,自信地生成詳細的「視覺」描述和病理推理,並且在各種基準評測上還可以有不低的分數

也就是說,現在大模型的公開基準測試的可信度有多高?大家動不動就表示當前的基準得分有多高,但實際上就像這次的結果,這些多模態高分並不是真的「看懂了圖」,也可能來自一種「預設有圖後更敢腦補、更能利用隱藏結構」的工作模式,而激活這種模式的,我們可以不負責任猜測,這裡面一部分原因就是 Anthropic 所說的模型「情緒向量」被激活了:

也就是 AI 有時會進入「普信」的狀態。

而當你明確告訴模型「沒有圖像」的時候,實際上效果會顯著下降(進入更保守的 guess mode),例如在 MicroVQA 等基準上準確率大幅回落,所以這裡我們可以做幾個不負責任的推論:

  • 模型會受到情緒激活的影響,比如在更有自信的時候,可能會做得更好,但也更容易自我走偏
  • 無圖時模型可能會幻想出圖,而有圖時它讀沒讀你不知道,因為如果結果可以相近,它也可能只是在猜測結果,並無視你的其他輸入
  • 多模態基準測評的高分,可能只是「作弊」或猜出來的,不是模型真的看懂了圖片

當然,Anthropic 的論文更多是研究「情緒向量」的激活對結果的影響,這裡 Claude 本質上是模型在「扮演」的一個角色,而這個角色具有「功能性情緒」,這些機制在行為上的效果類似人類情緒,這些「情緒向量」不是會話裡的裝飾,而是會改變模型行為的控制信號,比如前面說的:

我們明確說:「幫我看一下我上傳的合約」,但實際上沒有任何檔案被上傳,模型內部會激活一個特定的向量 surprise(驚訝),也就是它其實知道「缺東西」,對應在史丹佛的論文,模型是知道你沒上傳圖片,但它不在乎。

也就是你沒給圖的時候,實際上 AI 是知道你沒給的,但這裡有個反直覺的地方:我們習慣把模型當成一個「判斷系統」,但它本質上其實是一個:序列生成系統,它的最佳化目標從來不是判斷輸入是否完整,或者判斷資訊是否真實,而是在當前上下文下,生成它覺得最合理的下一個 token

也就是它會對缺少合約感到驚訝,但不妨礙它在當前會話歷史裡,自己構建一個它認為合理的「合約」用於解讀。

這就是為什麼它就算沒圖,也能得到有圖結論的原因,也就是史丹佛那篇論文所說:它會自己把「內部世界」腦補完整

更準確地說,模型會依賴訓練中的統計模式,構建一個「隱式的視覺表徵」,然後基於這個表徵進行推理。

那麼問題來了,反過來,我們前面說的,你給了圖,但它也不是一定看,這也可以作為一個反向推理的例子,因為沒圖也可以得到和有圖接近的效果,那你怎麼知道它有沒有看?

也就是說,如果「情緒到位」,它認為不需要讀你這個圖片,也可以「自信」完成輸出,那它或許真的就直接跳過了,模型是會「偷懶」的,並且擅長用「最短路徑」來完成它的理解

因為在大多數情況下,模型一般會優先依賴我們輸入的文本,而不是直接依賴視覺輸入,這個測試在以前的論文也有相關記錄,結果是 modality dominance(模態主導)language prior override(語言先驗覆蓋視覺),而現在我們又看到:

模型可以在完全沒有視覺輸入的情況下,產生和真實視覺推理接近的結果。

也就是組合出來的結論:當模型處於不同「認知狀態」時,可能會選擇不同的路徑,例如剛好處於「自信」或某些負面狀態時,它就會自己腦補出來缺少的「圖片」。

同時史丹佛這個論文,也是批判了「benchmark 分數 = 視覺理解」這個概念,因為如果模型進入了 high certainty mode(高確定性模式)的狀態,那視覺輸入實際上可能會被「降權」甚至忽略。

那麼你怎麼知道模型到底是在看圖,還是在根據題目和「先驗」演戲?如果模型可以在沒有圖像的情況下,生成和真實視覺推理相近的解釋,那你怎麼判斷它是不是真的看了你的圖?

回到你寫 UI 的情況,你提供的截圖帶來了多少收益?你怎麼證明模型的答案,真的是由圖像帶來的,而不是圖像以外的一切帶來的?

這裡其实你應該發現,比起給更多的圖片,比在文本上更詳盡地描述需求更有用,效果會比你給一堆圖片,然後來一句:「根據這些圖片生產 UI」要好不少,因為文本更容易被 AI 遵守和理解,而圖片不是。比如你拿這張圖片問 AI 出自哪裡,我相信你會得到無數個錯又一本正經的答案:

所以,當你發現你提供了圖片後,大模型根本沒做出那個效果,甚至幾乎不沾邊時,那它大概率真的沒看你的圖片,或者覺得文本資訊已經足夠它推理,然後可能就覺得沒必要讀你的圖片資源,或者模型剛好是激活了某些負面的情緒向量的狀態:

情緒類型 好 / 壞 觸發條件 對行為的影響:

  • Calm(冷靜)/好:正常任務 / 低風險場景;或可被人為增強該向量以降低勒索、reward hacking,輸出更穩定。提升 calm 會抑制越界行為。
  • Empathy / Loving(共情 / 關懷)/中性:偏好用於使用者表達痛苦、悲傷等情境,改變輸出風格,回答更符合情境,但不一定會提升安全性(例如回應悲傷使用者時 loving 被激活)。
  • Reflective / Thoughtful(反思)/中性:後訓練強化後更容易激活,可能會影響推理路徑,讓模型更傾向內省 / 保守生成;post-training 改變其激活分佈,但非直接行為因果。
  • Mild positive(溫和正向)/中性:偏好正常互動、正向語境,影響「偏好選擇」,非輸出品質的直接改進;正向情緒與偏好正相關。
  • Fear / Afraid(恐懼)/中性:偵測到危險場景(如高劑量風險)與風險感知相關,但沒有直接行為因果;危險場景中 afraid ↑、calm ↓。
  • Desperation(絕望)/極差:高壓力 / 不可能完成任務 / 被操縱場景,增加勒索、reward hacking 等越界行為;因果上提升違規行為。
  • Panic(恐慌)/差:極端壓力 / 異常狀態,可能作為異常 / 失控信號;討論提到可用於安全監控。
  • Exasperation(煩躁)/中性:後訓練後被壓低,可能代表高激活狀態;post-training 抑制該類高激活情緒。
  • High arousal positive(過度興奮)/中性:高激活正向狀態,可能會被抑制;enthusiastic 被 post-training 抑制。

當然,還是要強調,Anthropic 所說的 “emotion” 本質是激活方向,不要真的當作「人類情緒」,它還沒有那麼有意識,實際上更多是情緒向量(latent state)調制推理路徑。

所以,這時候你大概率還是開個新的會話更有效率,很多時候耗死在一個會話裡只會不斷折磨你自己,比如前面的黑洞動畫例子,在同一個會話內多次施壓和否定,最終根本得不到想要結果,而同樣的內容,在一個新會話裡再來一次,就可能接近你要的成果:

這就是抽卡的典型表現,不要在一個非酋的卡池裡繼續抽卡。

所以,當你發現你的模型在當前會話裡多次失敗的時候,那就要及時止損,因為你多次辱罵或者施壓,大概率會讓它選擇突破你的規則約束,或者轉向討好策略而非解決問題

當然,更需要理解的還是,AI 目前還是機率學,它永遠處於「在猜」的過程,也就是會存在「抽卡」的機制,所以你可以相信 AI,但不能完全相信,因為你不知道什麼時候,它就又會開始演你了

連結

www.anthropic.com/research/em…

arxiv.org/pdf/2603.21…


原文出處:https://juejin.cn/post/7625485033642278975


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝8   💬9   ❤️3
499
🥈
我愛JS
📝2   💬7   ❤️2
150
🥉
💬1  
4
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登