今天我看到有人說 DeepSeek 出了識圖模式,我的第一反應是,識圖?識圖不是早就有了嗎?我之前經常拿著照片讓 DeepSeek 擷取文字啊。

幸好我這句話沒說出口,不然可就貽笑大方了。
然後我就在 x 上看到了陳小康發的推文。

陳小康是 DeepSeek 多模態團隊的領頭人,曾本科和博士都就讀於北大。
老實說,DeepSeek 的識圖模式在 V4 發布幾天後就上線了,但當時是灰度測試,並沒有大範圍開放。
而今天,識圖模式終於迎來了大範圍開放。
Web 端和 App 端都可以使用。
DeepSeek 的識圖模式並不是從 OCR 中擷取文字,而是終於認得圖片了。
也就是說,DeepSeek,終於開天眼了。
於是,我趕緊讓它分析了一張圖片。

整個識圖過程速度非常快。
它先判斷這是夜間足球比賽現場,位置像 VIP/包廂區域;然後繼續看人物,能說出這是一位穿米色套裝、拿著墨鏡、靠在護欄上的女士;再往後,它甚至注意到了右下角護欄上的葡萄牙隊徽。
這個細節是它同時注意到了右側的葡萄牙隊徽,這就挺關鍵。
因為這張圖如果只看大概,誰都能說出一個女士在球場上。
它說「很可能是里斯本的光明球場或巨龍球場」。
它沒有直接下結論,說這就是某個球場,而是說可能是,因為現在不怕 AI 犯錯,就怕犯錯之後還一本正經地胡說八道。
這個識別錯誤並且糾正的成本太高了。
更讓我意外的是後面那段。

它看出了這張圖很可能是 AI 生成圖像。
理由也給得比較具體:畫面太乾淨,光影太有電影感,皮膚和人物邊緣融合得有點過於平滑。
現在網路上到處都是 AI 圖,很多圖第一眼看上去已經不差了。你讓人用肉眼看,很多時候也只能說「感覺有點怪」,但無法給出清楚的理由。
而且之前 ChatGPT 校正圖片的時候,也只是從兩點來判斷的。
一個是偵測到 SynthID,一個是偵測到內容憑證。
這個更像是從圖片來源的角度來判斷。

而 DeepSeek 是從圖像本身出發來判斷的。
而且 DeepSeek 對於圖像識別的推理能力也很出色。
我用了這張充滿戲謔的圖去問它,請它解釋一下。

由於推理過程太多,放圖文效果很差,所以我這裡給大家錄一個影片,來感受一下。
它的推理過程非常出色,但是整個推理過程中它犯了兩個錯誤。
一個是錯誤地把 Claude 3.5 認成了 Fable 5,第二個是被禁的原因說的是無法向中國大陸者提供服務。
不過這兩個錯誤我覺得問題不大,無非是知識庫訓練時間的問題。
它目前的訓練時間還是在

我需要連網搜尋才能讓它查詢到最新日期的消息。
但是識圖功能目前不支援連網搜尋。
所以這就死鎖了。
也就是說,目前識圖功能只能大概率確定圖片是不是 AI 圖,而無法即時分析和解釋圖片內容。
但是這個限制,反而讓我更確定它現在適合幹嘛。
它不是一個「看圖搜尋引擎」。
它更像一個「看圖推理器」。
你給它一張圖,它能把圖裡的元素拆開,把人物、文字、動作、空間關係和畫面質感給你說出來。
但如果這張圖背後依賴的是昨天剛發生的新聞,或者今天剛紅起來的梗,它就會出現剛才這種情況。
不過,這次更新至少說明一件事:
DeepSeek 補上了多模態入口。
以後它要拼的,是看見以後,能不能繼續把事情想明白、做下去。