天下苦 Token 久矣,DeepSeek V4 終於來了!

「鴿王」DeepSeek V4 終於來了~!

雖然從物理時間上看,V3 到 V4 只用了一年多時間。 但是整個 AI 界已經天翻地覆了,從我們的心理感受來說,也是過了好久好久了。

好不好先不說,能更新,就是件好事情了。

最好是能把全球的 Token 價格打下來!

下面就趕緊來看一下,有哪些亮點吧!

目前可以看到的資料是一篇官方的公眾號文章。

標題為《DeepSeek-V4 預覽版:邁入百萬上下文普惠時代

我們就以這篇文章為準,來看看這次更新到底有什麼亮點。

第三方平台和很多媒體號肯定是要尬吹一波的,不要當真!

這篇文章第一個總結下面的描述是:

DeepSeek-V4 擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。

然後來看正文!

兩個尺寸

DeepSeek 這次的發佈沒有 R 系列,而是兩個 V 系列的版本!

一個叫 V4-Pro,另一個叫 V4-Flash。

這種搭配非常常見,Google 也是一直這麼來的,國內 GLM 也有專門的 Flash 版本。

我把這個表格丟給了「豆包和千問」,問它們這個參數在目前的國產模型中是什麼級別。

它們都告訴我是頂級。

1.6T 的參數、49B 啟用以及 1M 的上下文,在目前看來應該都是 TOP 級別的存在了!

Pro 性能拉滿

然後他們重點介紹 Pro 這個模型,描述用詞為「性能比肩頂級閉源模型」!

並給出了一張基準圖:

這個圖表風格還是很樸實的,數據表現也很不錯。

這張圖主要展現了Agent 能力、世界知識、推理能力這三個維度。

世界知識和推理能力主要作為日常使用模型的核心能力。

而對於我們這種比較關注程式設計和工程實踐的人,最關注的是智慧體的能力

更詳細的基準數據如下:

我們把目光聚焦到 Agentic 這一欄目。

這次的對比選手有 K2.6、GLM5.1、Opus4.6、GPT5.4、Gemini3.1 Pro。這些模型的配置全都拉到了 xhigh 或者 Max,也就是最強的那一檔。

DeepSeek V4 的基準數據還比較全面,有些模型發佈的時候基準很少。

我們可以快速了解一下幾個基準含義。

SWE 系列主要體現程式碼工程能力,全稱叫Software Engineering Benchmarks

Terminal Bench 2.0 (Acc) —— 終端/系統操作能力

BrowseComp (Pass@1) —— 網頁瀏覽與資訊檢索

Toolathlon (Pass@1) & MCPAtlas —— 工具呼叫能力

HLE w/tools & GDPval-AA —— 邏輯與綜合評分

從圖中可以看到幾個亮點:

程式碼能力很強(SWE Verified 80.6%),這是目前業界最難啃的骨頭,比 K2.6 和 GLM5.1 高。

系統操作能力極強(Terminal Bench 67.9%),比國外的 Opus4.6 和國內的 K2.6、GLM5.1 高。

其他參數也非常亮眼,看起來是一個全能型的智慧體模型。

當然,我也一直強調,基準測試是開卷考,有多少水分全看節操。

Flash 高效省錢

對於大模型廠商來說,Pro 一般是來秀肌肉的,而對用戶來說,真正拿來用的很可能是 Flash。因為很多時候,快和省很重要。

Flash 模型的官方介紹:

Flash 在世界知識儲備方面稍遜一籌,但展現出了接近的推理能力。而由於模型參數和啟用更小,相較之下 V4-Flash 能夠提供更加快捷、經濟的 API 服務。

另外還說到了在 Agent 場景中,簡單任務上與 Pro 旗鼓相當,但是高難度任務上仍有差距。

結構創新和 1M

說了模型的尺寸和特點之後,就說到了 V4 開創了一種全新的注意力機制

這種機制在 token 維度進行壓縮,結合 DSA 稀疏注意力,實現了全球領先的長上下文能力,並且相比於傳統方法大幅降低了對計算和顯存的需求

如果真的能做到既降低技術和顯存,又能提升能力,這真的是大好消息。

智慧體專項優化

現在的大模型更新,沒有一個不談 Agent 的,V4 也不例外。

上面已經說了好幾次了,官方文章中還是專門拿出一個大標題來講這件事。

主要是表達了 DeepSeek-V4 針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 產品進行了適配和優化,在程式碼任務、文件生成任務等方面表現均有提升。

然後舉了一個 PPT 的例子:

我對 PPT 無感,大家可以看一下效果!

價格問題

這是一個非常關鍵的問題,尤其是對 DeepSeek 而言。

它剛開始大火,讓大家愛不釋手,其中一個重要原因就是成本低。訓練成本、使用成本也低。

下面來看下 V4 的價格:

注意小字部分,昪騰 950 批量上市之後,Pro 價格會大幅下調。壓力來到了華為這邊,不要拖後腿哦!

未來的事情我們未來再說,先來看看當下這個價格有沒有競爭力。

我讓 AI 幫我做了一個表格:

模型|快取命中|快取未命中|輸出|上下文長度
DeepSeek V4-Pro|1 元|12 元|24 元|1M
DeepSeek V4-Flash|0.2 元|1 元|2 元|1M
GLM-5.1|1.3 元|6 元|24 元|200K
Kimi K2.6|1.15 元|6.8 元|28.8 元|256K

從這個價目表來看:

Flash 價格還是非常有競爭力的,畢竟是 1M 上下文。

Pro 的話「輸入」是比較貴的,「輸出」基本上和其他家的頂級模型差不多!

開源問題

DeepSeek 另一大殺手鐧就是開源,最初就是因為它的開源,導致了整個國外大模型廠商的恐慌,以及國內生態的繁榮。

這一次也不例外,依舊大方開源,目前已經同步開源

既然開源了,那麼稍微有點實力的,都可以部署起來了。

供給就變多了,那麼是不是 Token 要便宜一些了呢?

接下來可以期待下,看看能不能給我們這些小顯存用戶,蒸餾幾個小模型來玩玩了。

目前資訊並不多,大概就是這些了!

有了這個基礎概念和數據,我們接下來就可以搞起來了。

錢已經充好了,開發工具也配置好了,準備開搞!

從基準數據來看,妥妥多國內第一梯隊啊!

希望一切都是真的,是真的很猛!

參考連結

官網:www.deepseek.com/

開發者平台:platform.deepseek.com/


原文出處:https://juejin.cn/post/7631956346273087524


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝3   💬3   ❤️1
198
🥈
我愛JS
💬2  
7
🥉
Gigi
2
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登