小編精選 - 技術文章翻譯 · 04月08日

你的 AI 不好用，可能只是它在耍你，或者在鬧情緒

你的 AI 不好用，可能只是它在演你，或者在鬧情緒

你在用 AI 開發的時候，有沒有經常遇到：**明明我已經提供了圖片或者附件說明，AI 也一本正經地表示我看到了，甚至描繪得有聲有色，然後最終給了你一坨“大辯”的經歷**？

如果有，不要懷疑是自己使用的方式有什麼問題，實際上這可能 AI 根本沒讀你的圖片，它只是一本正經地在胡說八道，你做了豐富的知識庫，提供了各種多模態的資源輸入，但是它「已回不讀」。

這是一篇沒有直接證據的組合推論。

最近史丹佛發表的論文《Mirage: The Illusion of Visual Understanding》（arXiv:2603.21687v2）和 Anthropic 的新論文《Emotion concepts and their function in a large language model》，剛好可以用來做這個推論，它們是兩篇毫無直接關聯的內容，但是我們可以根據內容裡相關的證據來反向印證：

就像是下面這個例子，我提供圖片和各種公式說明的附件，但是最終效果上看起來，它並沒有真的去讀或者理解我發的圖片和附件，它只是在根據我的文本內容去推斷結果，然後透過最短路徑來完成它猜測的效果，出來的東西越改越魔幻：

儘管每次模型都會說：「我看到了xxxx」，但是實際上你不知道它看沒看，或者它可能只是在蒙，然後又浪費了一波 token，甚至大多數時候它可以說得言之鑿鑿，面對我的辱罵和高壓各種承認錯誤，甚至把問題都描述得很清楚，但是結果上它又像是什麼都沒看：

其他的例子也很多，比如你發給 AI 的內容連結或者 Github 連結（沒有 github mcp 和 token 時），實際上它根本就訪問不到完整內容，但有時候它就是不說，而是會透過各種途徑去猜，然後信誓旦旦地和你解釋。

當然，實際上「猜」這個行為，本來就是 AI 的本質，大模型本來就是機率學，「它一直在預測你的下一個詞」，那它是怎麼猜？

首先我要說明的是，這是兩篇毫無直接相關的論文組合出來的推論。史丹佛的 Mirage 論文證明的是：

模型在無圖時會進入一種類似「預設有圖存在」的 mirage-mode
顯式要求它去猜但不给圖，會讓表現下降
基準測試裡有大量可被非視覺線索、隱藏結構、資料汙染、文本模式利用的空間

而 Anthropic 的論文證明的是：

模型內部存在與情緒相關的表徵（emotion-related representations）
情緒表徵會因果性地影響某些行為，比如勒索、reward hacking（獎勵駭取）、偏好選擇
後訓練（post-training）會塑造這些向量的激活方式

從 Anthropic 的論文可以總結為：模型會產生「情緒」，情緒會影響結果；嚴格來說應該是模型內部存在與 emotion concepts 相關的功能性表徵，這些表徵會因果影響部分行為。也就是說這些 emotion 並不代表模型真的有主觀情感體驗，只是對應的特徵被激活。

在我看來，Anthropic 和史丹佛的論文有一個不相關但相似的觀點。史丹佛的論文指出：如果你告訴一個模型：「這裡有一張圖片」，即使實際上沒有，但它的結果表現大概率會變好（在應該有圖的場景下），而如果把 Anthropic 的發現放在一起理解：大模型的幻覺本質不是純粹「瞎編」，而是在內部「情緒向量」驅動下做出選擇，兩者放在一起看，就像是在有自信的情緒下自動補全一個虛假的世界（Mirage），並在其中推理。

因為史丹佛的論文說的是：模型在沒有圖像時也會生成描述，並且沒有任何不確定性或缺乏信心的表達，沒有 uncertainty，沒有 lack of confidence。

當然，這也是史丹佛論文指出的一個嚴重問題：模型在「沒有輸入」的情況下，會自己構造出一個完整的輸入世界並進行推理。這裡最有趣的是，前沿模型（GPT、Gemini、Claude）在完全沒有輸入圖像的情況下，還能在醫學基準（如 VQA-Rad、MicroVQA、MedXpertQA-MM）上保留 70–80% 的性能，Mirage Score 高達 60–99%，有時甚至接近有圖像時的準確率（例如 GPT-5.1 在 VQA-Rad 上無圖 90.5% vs 有圖 93.5%）：

這難道就是傳說中的，「手中無劍，心中有劍」的境界？我沒看到你的胸片，但我可以透過幻想的胸片判斷你有病。

理解這裡的問題沒有？模型會在沒有任何圖片輸入的情況下，自信地生成詳細的「視覺」描述和病理推理，並且在各種基準評測上還可以有不低的分數。

也就是說，現在大模型的公開基準測試的可信度有多高？大家動不動就表示當前的基準得分有多高，但實際上就像這次的結果，這些多模態高分並不是真的「看懂了圖」，也可能來自一種「預設有圖後更敢腦補、更能利用隱藏結構」的工作模式，而激活這種模式的，我們可以不負責任猜測，這裡面一部分原因就是 Anthropic 所說的模型「情緒向量」被激活了：

也就是 AI 有時會進入「普信」的狀態。

而當你明確告訴模型「沒有圖像」的時候，實際上效果會顯著下降（進入更保守的 guess mode），例如在 MicroVQA 等基準上準確率大幅回落，所以這裡我們可以做幾個不負責任的推論：

模型會受到情緒激活的影響，比如在更有自信的時候，可能會做得更好，但也更容易自我走偏
無圖時模型可能會幻想出圖，而有圖時它讀沒讀你不知道，因為如果結果可以相近，它也可能只是在猜測結果，並無視你的其他輸入
多模態基準測評的高分，可能只是「作弊」或猜出來的，不是模型真的看懂了圖片

當然，Anthropic 的論文更多是研究「情緒向量」的激活對結果的影響，這裡 Claude 本質上是模型在「扮演」的一個角色，而這個角色具有「功能性情緒」，這些機制在行為上的效果類似人類情緒，這些「情緒向量」不是會話裡的裝飾，而是會改變模型行為的控制信號，比如前面說的：

我們明確說：「幫我看一下我上傳的合約」，但實際上沒有任何檔案被上傳，模型內部會激活一個特定的向量 surprise（驚訝），也就是它其實知道「缺東西」，對應在史丹佛的論文，模型是知道你沒上傳圖片，但它不在乎。

也就是你沒給圖的時候，實際上 AI 是知道你沒給的，但這裡有個反直覺的地方：我們習慣把模型當成一個「判斷系統」，但它本質上其實是一個：序列生成系統，它的最佳化目標從來不是判斷輸入是否完整，或者判斷資訊是否真實，而是在當前上下文下，生成它覺得最合理的下一個 token。

也就是它會對缺少合約感到驚訝，但不妨礙它在當前會話歷史裡，自己構建一個它認為合理的「合約」用於解讀。

這就是為什麼它就算沒圖，也能得到有圖結論的原因，也就是史丹佛那篇論文所說：它會自己把「內部世界」腦補完整。

更準確地說，模型會依賴訓練中的統計模式，構建一個「隱式的視覺表徵」，然後基於這個表徵進行推理。

那麼問題來了，反過來，我們前面說的，你給了圖，但它也不是一定看，這也可以作為一個反向推理的例子，因為沒圖也可以得到和有圖接近的效果，那你怎麼知道它有沒有看？

也就是說，如果「情緒到位」，它認為不需要讀你這個圖片，也可以「自信」完成輸出，那它或許真的就直接跳過了，模型是會「偷懶」的，並且擅長用「最短路徑」來完成它的理解。

因為在大多數情況下，模型一般會優先依賴我們輸入的文本，而不是直接依賴視覺輸入，這個測試在以前的論文也有相關記錄，結果是 modality dominance（模態主導）或 language prior override（語言先驗覆蓋視覺），而現在我們又看到：

模型可以在完全沒有視覺輸入的情況下，產生和真實視覺推理接近的結果。

也就是組合出來的結論：當模型處於不同「認知狀態」時，可能會選擇不同的路徑，例如剛好處於「自信」或某些負面狀態時，它就會自己腦補出來缺少的「圖片」。

同時史丹佛這個論文，也是批判了「benchmark 分數 = 視覺理解」這個概念，因為如果模型進入了 high certainty mode（高確定性模式）的狀態，那視覺輸入實際上可能會被「降權」甚至忽略。

那麼你怎麼知道模型到底是在看圖，還是在根據題目和「先驗」演戲？如果模型可以在沒有圖像的情況下，生成和真實視覺推理相近的解釋，那你怎麼判斷它是不是真的看了你的圖？

回到你寫 UI 的情況，你提供的截圖帶來了多少收益？你怎麼證明模型的答案，真的是由圖像帶來的，而不是圖像以外的一切帶來的？

這裡其实你應該發現，比起給更多的圖片，比在文本上更詳盡地描述需求更有用，效果會比你給一堆圖片，然後來一句：「根據這些圖片生產 UI」要好不少，因為文本更容易被 AI 遵守和理解，而圖片不是。比如你拿這張圖片問 AI 出自哪裡，我相信你會得到無數個錯又一本正經的答案：

所以，當你發現你提供了圖片後，大模型根本沒做出那個效果，甚至幾乎不沾邊時，那它大概率真的沒看你的圖片，或者覺得文本資訊已經足夠它推理，然後可能就覺得沒必要讀你的圖片資源，或者模型剛好是激活了某些負面的情緒向量的狀態：

情緒類型好 / 壞觸發條件對行為的影響：

Calm（冷靜）／好：正常任務 / 低風險場景；或可被人為增強該向量以降低勒索、reward hacking，輸出更穩定。提升 calm 會抑制越界行為。
Empathy / Loving（共情 / 關懷）／中性：偏好用於使用者表達痛苦、悲傷等情境，改變輸出風格，回答更符合情境，但不一定會提升安全性（例如回應悲傷使用者時 loving 被激活）。
Reflective / Thoughtful（反思）／中性：後訓練強化後更容易激活，可能會影響推理路徑，讓模型更傾向內省 / 保守生成；post-training 改變其激活分佈，但非直接行為因果。
Mild positive（溫和正向）／中性：偏好正常互動、正向語境，影響「偏好選擇」，非輸出品質的直接改進；正向情緒與偏好正相關。
Fear / Afraid（恐懼）／中性：偵測到危險場景（如高劑量風險）與風險感知相關，但沒有直接行為因果；危險場景中 afraid ↑、calm ↓。
Desperation（絕望）／極差：高壓力 / 不可能完成任務 / 被操縱場景，增加勒索、reward hacking 等越界行為；因果上提升違規行為。
Panic（恐慌）／差：極端壓力 / 異常狀態，可能作為異常 / 失控信號；討論提到可用於安全監控。
Exasperation（煩躁）／中性：後訓練後被壓低，可能代表高激活狀態；post-training 抑制該類高激活情緒。
High arousal positive（過度興奮）／中性：高激活正向狀態，可能會被抑制；enthusiastic 被 post-training 抑制。