DeepSeek 殺入多模態,識圖功能正式上線!

今天我看到有人說 DeepSeek 出了識圖模式,我的第一反應是,識圖?識圖不是早就有了嗎?我之前經常拿著照片讓 DeepSeek 擷取文字啊。

image-20260618134619329

幸好我這句話沒說出口,不然可就貽笑大方了。

然後我就在 x 上看到了陳小康發的推文。

image-20260618145538661

陳小康是 DeepSeek 多模態團隊的領頭人,曾本科和博士都就讀於北大。

老實說,DeepSeek 的識圖模式在 V4 發布幾天後就上線了,但當時是灰度測試,並沒有大範圍開放。

而今天,識圖模式終於迎來了大範圍開放。

Web 端和 App 端都可以使用。

DeepSeek 的識圖模式並不是從 OCR 中擷取文字,而是終於認得圖片了。

也就是說,DeepSeek,終於開天眼了。

於是,我趕緊讓它分析了一張圖片。

image-20260618143419427

整個識圖過程速度非常快。

它先判斷這是夜間足球比賽現場,位置像 VIP/包廂區域;然後繼續看人物,能說出這是一位穿米色套裝、拿著墨鏡、靠在護欄上的女士;再往後,它甚至注意到了右下角護欄上的葡萄牙隊徽。

這個細節是它同時注意到了右側的葡萄牙隊徽,這就挺關鍵。

因為這張圖如果只看大概,誰都能說出一個女士在球場上。

它說「很可能是里斯本的光明球場或巨龍球場」。

它沒有直接下結論,說這就是某個球場,而是說可能是,因為現在不怕 AI 犯錯,就怕犯錯之後還一本正經地胡說八道。

這個識別錯誤並且糾正的成本太高了。

更讓我意外的是後面那段。

image-20260618150516206

它看出了這張圖很可能是 AI 生成圖像。

理由也給得比較具體:畫面太乾淨,光影太有電影感,皮膚和人物邊緣融合得有點過於平滑。

現在網路上到處都是 AI 圖,很多圖第一眼看上去已經不差了。你讓人用肉眼看,很多時候也只能說「感覺有點怪」,但無法給出清楚的理由。

而且之前 ChatGPT 校正圖片的時候,也只是從兩點來判斷的。

一個是偵測到 SynthID,一個是偵測到內容憑證。

這個更像是從圖片來源的角度來判斷。

image-20260618153656695

而 DeepSeek 是從圖像本身出發來判斷的。

而且 DeepSeek 對於圖像識別的推理能力也很出色。

我用了這張充滿戲謔的圖去問它,請它解釋一下。

image-20260618154038059

由於推理過程太多,放圖文效果很差,所以我這裡給大家錄一個影片,來感受一下。

它的推理過程非常出色,但是整個推理過程中它犯了兩個錯誤。

一個是錯誤地把 Claude 3.5 認成了 Fable 5,第二個是被禁的原因說的是無法向中國大陸者提供服務。

不過這兩個錯誤我覺得問題不大,無非是知識庫訓練時間的問題。

它目前的訓練時間還是在

image-20260618154844418

我需要連網搜尋才能讓它查詢到最新日期的消息。

但是識圖功能目前不支援連網搜尋。

所以這就死鎖了。

也就是說,目前識圖功能只能大概率確定圖片是不是 AI 圖,而無法即時分析和解釋圖片內容。

但是這個限制,反而讓我更確定它現在適合幹嘛。

它不是一個「看圖搜尋引擎」。

它更像一個「看圖推理器」。

你給它一張圖,它能把圖裡的元素拆開,把人物、文字、動作、空間關係和畫面質感給你說出來。

但如果這張圖背後依賴的是昨天剛發生的新聞,或者今天剛紅起來的梗,它就會出現剛才這種情況。

不過,這次更新至少說明一件事:

DeepSeek 補上了多模態入口。

以後它要拼的,是看見以後,能不能繼續把事情想明白、做下去。


原文出處:https://juejin.cn/post/7652384976291495974


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝16   💬1   ❤️1
468
🥈
我愛JS
📝1   ❤️1
22
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登