小編精選 - 技術文章翻譯 · 06月20日

DeepSeek 進軍多模態，圖像辨識功能正式上線！

DeepSeek 殺入多模態，識圖功能正式上線！

今天我看到有人說 DeepSeek 出了識圖模式，我的第一反應是，識圖？識圖不是早就有了嗎？我之前經常拿著照片讓 DeepSeek 擷取文字啊。

幸好我這句話沒說出口，不然可就貽笑大方了。

然後我就在 x 上看到了陳小康發的推文。

陳小康是 DeepSeek 多模態團隊的領頭人，曾本科和博士都就讀於北大。

老實說，DeepSeek 的識圖模式在 V4 發布幾天後就上線了，但當時是灰度測試，並沒有大範圍開放。

而今天，識圖模式終於迎來了大範圍開放。

Web 端和 App 端都可以使用。

DeepSeek 的識圖模式並不是從 OCR 中擷取文字，而是終於認得圖片了。

也就是說，DeepSeek，終於開天眼了。

於是，我趕緊讓它分析了一張圖片。

整個識圖過程速度非常快。

它先判斷這是夜間足球比賽現場，位置像 VIP／包廂區域；然後繼續看人物，能說出這是一位穿米色套裝、拿著墨鏡、靠在護欄上的女士；再往後，它甚至注意到了右下角護欄上的葡萄牙隊徽。

這個細節是它同時注意到了右側的葡萄牙隊徽，這就挺關鍵。

因為這張圖如果只看大概，誰都能說出一個女士在球場上。

它說「很可能是里斯本的光明球場或巨龍球場」。

它沒有直接下結論，說這就是某個球場，而是說可能是，因為現在不怕 AI 犯錯，就怕犯錯之後還一本正經地胡說八道。

這個識別錯誤並且糾正的成本太高了。

更讓我意外的是後面那段。

它看出了這張圖很可能是 AI 生成圖像。

理由也給得比較具體：畫面太乾淨，光影太有電影感，皮膚和人物邊緣融合得有點過於平滑。

現在網路上到處都是 AI 圖，很多圖第一眼看上去已經不差了。你讓人用肉眼看，很多時候也只能說「感覺有點怪」，但無法給出清楚的理由。

而且之前 ChatGPT 校正圖片的時候，也只是從兩點來判斷的。

一個是偵測到 SynthID，一個是偵測到內容憑證。

這個更像是從圖片來源的角度來判斷。

而 DeepSeek 是從圖像本身出發來判斷的。

而且 DeepSeek 對於圖像識別的推理能力也很出色。

我用了這張充滿戲謔的圖去問它，請它解釋一下。

由於推理過程太多，放圖文效果很差，所以我這裡給大家錄一個影片，來感受一下。

它的推理過程非常出色，但是整個推理過程中它犯了兩個錯誤。

一個是錯誤地把 Claude 3.5 認成了 Fable 5，第二個是被禁的原因說的是無法向中國大陸者提供服務。

不過這兩個錯誤我覺得問題不大，無非是知識庫訓練時間的問題。

它目前的訓練時間還是在

我需要連網搜尋才能讓它查詢到最新日期的消息。

但是識圖功能目前不支援連網搜尋。

所以這就死鎖了。

也就是說，目前識圖功能只能大概率確定圖片是不是 AI 圖，而無法即時分析和解釋圖片內容。

但是這個限制，反而讓我更確定它現在適合幹嘛。

它不是一個「看圖搜尋引擎」。

它更像一個「看圖推理器」。

你給它一張圖，它能把圖裡的元素拆開，把人物、文字、動作、空間關係和畫面質感給你說出來。

但如果這張圖背後依賴的是昨天剛發生的新聞，或者今天剛紅起來的梗，它就會出現剛才這種情況。

不過，這次更新至少說明一件事：

DeepSeek 補上了多模態入口。

以後它要拼的，是看見以後，能不能繼續把事情想明白、做下去。

原文出處：https://juejin.cn/post/7652384976291495974

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 707瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝17 💬3 ❤️5

721

🥈

我愛JS

📝2 💬5 ❤️3

144

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次