你在用 AI 開發的時候,有沒有經常遇到:**明明我已經提供了圖片或者附件說明,AI 也一本正經地表示我看到了,甚至描繪得有聲有色,然後最終給了你一坨“大辯”的經歷**?
如果有,不要懷疑是自己使用的方式有什麼問題,實際上這可能 AI 根本沒讀你的圖片,它只是一本正經地在胡說八道,你做了豐富的知識庫,提供了各種多模態的資源輸入,但是它「已回不讀」。
這是一篇沒有直接證據的組合推論。
最近史丹佛發表的論文《Mirage: The Illusion of Visual Understanding》(arXiv:2603.21687v2) 和 Anthropic 的新論文 《Emotion concepts and their function in a large language model》 ,剛好可以用來做這個推論,它們是兩篇毫無直接關聯的內容,但是我們可以根據內容裡相關的證據來反向印證:

就像是下面這個例子,我提供圖片和各種公式說明的附件,但是最終效果上看起來,它並沒有真的去讀或者理解我發的圖片和附件,它只是在根據我的文本內容去推斷結果,然後透過最短路徑來完成它猜測的效果,出來的東西越改越魔幻:

儘管每次模型都會說:「我看到了xxxx」,但是實際上你不知道它看沒看,或者它可能只是在蒙,然後又浪費了一波 token,甚至大多數時候它可以說得言之鑿鑿,面對我的辱罵和高壓各種承認錯誤,甚至把問題都描述得很清楚,但是結果上它又像是什麼都沒看:

其他的例子也很多,比如你發給 AI 的內容連結或者 Github 連結(沒有 github mcp 和 token 時),實際上它根本就訪問不到完整內容,但有時候它就是不說,而是會透過各種途徑去猜,然後信誓旦旦地和你解釋。
當然,實際上「猜」這個行為,本來就是 AI 的本質,大模型本來就是機率學,「它一直在預測你的下一個詞」,那它是怎麼猜?
首先我要說明的是,這是兩篇毫無直接相關的論文組合出來的推論。史丹佛的 Mirage 論文證明的是:
而 Anthropic 的論文證明的是:
從 Anthropic 的論文可以總結為:模型會產生「情緒」,情緒會影響結果;嚴格來說應該是模型內部存在與 emotion concepts 相關的功能性表徵,這些表徵會因果影響部分行為。也就是說這些 emotion 並不代表模型真的有主觀情感體驗,只是對應的特徵被激活。

在我看來,Anthropic 和史丹佛的論文有一個不相關但相似的觀點。史丹佛的論文指出:如果你告訴一個模型:「這裡有一張圖片」,即使實際上沒有,但它的結果表現大概率會變好(在應該有圖的場景下),而如果把 Anthropic 的發現放在一起理解:大模型的幻覺本質不是純粹「瞎編」,而是在內部「情緒向量」驅動下做出選擇,兩者放在一起看,就像是在有自信的情緒下自動補全一個虛假的世界(Mirage),並在其中推理。
因為史丹佛的論文說的是:模型在沒有圖像時也會生成描述,並且沒有任何不確定性或缺乏信心的表達,沒有 uncertainty,沒有 lack of confidence。
當然,這也是史丹佛論文指出的一個嚴重問題:模型在「沒有輸入」的情況下,會自己構造出一個完整的輸入世界並進行推理。這裡最有趣的是,前沿模型(GPT、Gemini、Claude)在完全沒有輸入圖像的情況下,還能在醫學基準(如 VQA-Rad、MicroVQA、MedXpertQA-MM)上保留 70–80% 的性能,Mirage Score 高達 60–99%,有時甚至接近有圖像時的準確率(例如 GPT-5.1 在 VQA-Rad 上無圖 90.5% vs 有圖 93.5%):

這難道就是傳說中的,「手中無劍,心中有劍」的境界?我沒看到你的胸片,但我可以透過幻想的胸片判斷你有病。
理解這裡的問題沒有?模型會在沒有任何圖片輸入的情況下,自信地生成詳細的「視覺」描述和病理推理,並且在各種基準評測上還可以有不低的分數。
也就是說,現在大模型的公開基準測試的可信度有多高?大家動不動就表示當前的基準得分有多高,但實際上就像這次的結果,這些多模態高分並不是真的「看懂了圖」,也可能來自一種「預設有圖後更敢腦補、更能利用隱藏結構」的工作模式,而激活這種模式的,我們可以不負責任猜測,這裡面一部分原因就是 Anthropic 所說的模型「情緒向量」被激活了:

也就是 AI 有時會進入「普信」的狀態。
而當你明確告訴模型「沒有圖像」的時候,實際上效果會顯著下降(進入更保守的 guess mode),例如在 MicroVQA 等基準上準確率大幅回落,所以這裡我們可以做幾個不負責任的推論:
當然,Anthropic 的論文更多是研究「情緒向量」的激活對結果的影響,這裡 Claude 本質上是模型在「扮演」的一個角色,而這個角色具有「功能性情緒」,這些機制在行為上的效果類似人類情緒,這些「情緒向量」不是會話裡的裝飾,而是會改變模型行為的控制信號,比如前面說的:
我們明確說:「幫我看一下我上傳的合約」,但實際上沒有任何檔案被上傳,模型內部會激活一個特定的向量 surprise(驚訝),也就是它其實知道「缺東西」,對應在史丹佛的論文,模型是知道你沒上傳圖片,但它不在乎。

也就是你沒給圖的時候,實際上 AI 是知道你沒給的,但這裡有個反直覺的地方:我們習慣把模型當成一個「判斷系統」,但它本質上其實是一個:序列生成系統,它的最佳化目標從來不是判斷輸入是否完整,或者判斷資訊是否真實,而是在當前上下文下,生成它覺得最合理的下一個 token。
也就是它會對缺少合約感到驚訝,但不妨礙它在當前會話歷史裡,自己構建一個它認為合理的「合約」用於解讀。
這就是為什麼它就算沒圖,也能得到有圖結論的原因,也就是史丹佛那篇論文所說:它會自己把「內部世界」腦補完整。
更準確地說,模型會依賴訓練中的統計模式,構建一個「隱式的視覺表徵」,然後基於這個表徵進行推理。
那麼問題來了,反過來,我們前面說的,你給了圖,但它也不是一定看,這也可以作為一個反向推理的例子,因為沒圖也可以得到和有圖接近的效果,那你怎麼知道它有沒有看?
也就是說,如果「情緒到位」,它認為不需要讀你這個圖片,也可以「自信」完成輸出,那它或許真的就直接跳過了,模型是會「偷懶」的,並且擅長用「最短路徑」來完成它的理解。
因為在大多數情況下,模型一般會優先依賴我們輸入的文本,而不是直接依賴視覺輸入,這個測試在以前的論文也有相關記錄,結果是 modality dominance(模態主導)或 language prior override(語言先驗覆蓋視覺),而現在我們又看到:
模型可以在完全沒有視覺輸入的情況下,產生和真實視覺推理接近的結果。
也就是組合出來的結論:當模型處於不同「認知狀態」時,可能會選擇不同的路徑,例如剛好處於「自信」或某些負面狀態時,它就會自己腦補出來缺少的「圖片」。
同時史丹佛這個論文,也是批判了「benchmark 分數 = 視覺理解」這個概念,因為如果模型進入了 high certainty mode(高確定性模式)的狀態,那視覺輸入實際上可能會被「降權」甚至忽略。
那麼你怎麼知道模型到底是在看圖,還是在根據題目和「先驗」演戲?如果模型可以在沒有圖像的情況下,生成和真實視覺推理相近的解釋,那你怎麼判斷它是不是真的看了你的圖?
回到你寫 UI 的情況,你提供的截圖帶來了多少收益?你怎麼證明模型的答案,真的是由圖像帶來的,而不是圖像以外的一切帶來的?
這裡其实你應該發現,比起給更多的圖片,比在文本上更詳盡地描述需求更有用,效果會比你給一堆圖片,然後來一句:「根據這些圖片生產 UI」要好不少,因為文本更容易被 AI 遵守和理解,而圖片不是。比如你拿這張圖片問 AI 出自哪裡,我相信你會得到無數個錯又一本正經的答案:

所以,當你發現你提供了圖片後,大模型根本沒做出那個效果,甚至幾乎不沾邊時,那它大概率真的沒看你的圖片,或者覺得文本資訊已經足夠它推理,然後可能就覺得沒必要讀你的圖片資源,或者模型剛好是激活了某些負面的情緒向量的狀態:
情緒類型 好 / 壞 觸發條件 對行為的影響:
當然,還是要強調,Anthropic 所說的 “emotion” 本質是激活方向,不要真的當作「人類情緒」,它還沒有那麼有意識,實際上更多是情緒向量(latent state)調制推理路徑。
所以,這時候你大概率還是開個新的會話更有效率,很多時候耗死在一個會話裡只會不斷折磨你自己,比如前面的黑洞動畫例子,在同一個會話內多次施壓和否定,最終根本得不到想要結果,而同樣的內容,在一個新會話裡再來一次,就可能接近你要的成果:
這就是抽卡的典型表現,不要在一個非酋的卡池裡繼續抽卡。
所以,當你發現你的模型在當前會話裡多次失敗的時候,那就要及時止損,因為你多次辱罵或者施壓,大概率會讓它選擇突破你的規則約束,或者轉向討好策略而非解決問題。
當然,更需要理解的還是,AI 目前還是機率學,它永遠處於「在猜」的過程,也就是會存在「抽卡」的機制,所以你可以相信 AI,但不能完全相信,因為你不知道什麼時候,它就又會開始演你了。
www.anthropic.com/research/em…