「鴿王」DeepSeek V4 終於來了~!

雖然從物理時間上看,V3 到 V4 只用了一年多時間。 但是整個 AI 界已經天翻地覆了,從我們的心理感受來說,也是過了好久好久了。
好不好先不說,能更新,就是件好事情了。
最好是能把全球的 Token 價格打下來!
下面就趕緊來看一下,有哪些亮點吧!
目前可以看到的資料是一篇官方的公眾號文章。
標題為《DeepSeek-V4 預覽版:邁入百萬上下文普惠時代》
我們就以這篇文章為準,來看看這次更新到底有什麼亮點。
第三方平台和很多媒體號肯定是要尬吹一波的,不要當真!
這篇文章第一個總結下面的描述是:
「DeepSeek-V4 擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。」
然後來看正文!
DeepSeek 這次的發佈沒有 R 系列,而是兩個 V 系列的版本!

一個叫 V4-Pro,另一個叫 V4-Flash。
這種搭配非常常見,Google 也是一直這麼來的,國內 GLM 也有專門的 Flash 版本。
我把這個表格丟給了「豆包和千問」,問它們這個參數在目前的國產模型中是什麼級別。
它們都告訴我是頂級。
1.6T 的參數、49B 啟用以及 1M 的上下文,在目前看來應該都是 TOP 級別的存在了!
然後他們重點介紹 Pro 這個模型,描述用詞為「性能比肩頂級閉源模型」!
並給出了一張基準圖:

這個圖表風格還是很樸實的,數據表現也很不錯。
這張圖主要展現了Agent 能力、世界知識、推理能力這三個維度。
世界知識和推理能力主要作為日常使用模型的核心能力。
而對於我們這種比較關注程式設計和工程實踐的人,最關注的是智慧體的能力。
更詳細的基準數據如下:

我們把目光聚焦到 Agentic 這一欄目。
這次的對比選手有 K2.6、GLM5.1、Opus4.6、GPT5.4、Gemini3.1 Pro。這些模型的配置全都拉到了 xhigh 或者 Max,也就是最強的那一檔。
DeepSeek V4 的基準數據還比較全面,有些模型發佈的時候基準很少。
我們可以快速了解一下幾個基準含義。
SWE 系列主要體現程式碼工程能力,全稱叫Software Engineering Benchmarks。
Terminal Bench 2.0 (Acc) —— 終端/系統操作能力
BrowseComp (Pass@1) —— 網頁瀏覽與資訊檢索
Toolathlon (Pass@1) & MCPAtlas —— 工具呼叫能力
HLE w/tools & GDPval-AA —— 邏輯與綜合評分
從圖中可以看到幾個亮點:
程式碼能力很強(SWE Verified 80.6%),這是目前業界最難啃的骨頭,比 K2.6 和 GLM5.1 高。
系統操作能力極強(Terminal Bench 67.9%),比國外的 Opus4.6 和國內的 K2.6、GLM5.1 高。
其他參數也非常亮眼,看起來是一個全能型的智慧體模型。
當然,我也一直強調,基準測試是開卷考,有多少水分全看節操。
對於大模型廠商來說,Pro 一般是來秀肌肉的,而對用戶來說,真正拿來用的很可能是 Flash。因為很多時候,快和省很重要。
Flash 模型的官方介紹:
Flash 在世界知識儲備方面稍遜一籌,但展現出了接近的推理能力。而由於模型參數和啟用更小,相較之下 V4-Flash 能夠提供更加快捷、經濟的 API 服務。
另外還說到了在 Agent 場景中,簡單任務上與 Pro 旗鼓相當,但是高難度任務上仍有差距。
說了模型的尺寸和特點之後,就說到了 V4 開創了一種全新的注意力機制。

這種機制在 token 維度進行壓縮,結合 DSA 稀疏注意力,實現了全球領先的長上下文能力,並且相比於傳統方法大幅降低了對計算和顯存的需求。
如果真的能做到既降低技術和顯存,又能提升能力,這真的是大好消息。
現在的大模型更新,沒有一個不談 Agent 的,V4 也不例外。
上面已經說了好幾次了,官方文章中還是專門拿出一個大標題來講這件事。
主要是表達了 DeepSeek-V4 針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 產品進行了適配和優化,在程式碼任務、文件生成任務等方面表現均有提升。
然後舉了一個 PPT 的例子:

我對 PPT 無感,大家可以看一下效果!
這是一個非常關鍵的問題,尤其是對 DeepSeek 而言。
它剛開始大火,讓大家愛不釋手,其中一個重要原因就是成本低。訓練成本、使用成本也低。
下面來看下 V4 的價格:

注意小字部分,昪騰 950 批量上市之後,Pro 價格會大幅下調。壓力來到了華為這邊,不要拖後腿哦!
未來的事情我們未來再說,先來看看當下這個價格有沒有競爭力。
我讓 AI 幫我做了一個表格:
模型|快取命中|快取未命中|輸出|上下文長度
DeepSeek V4-Pro|1 元|12 元|24 元|1M
DeepSeek V4-Flash|0.2 元|1 元|2 元|1M
GLM-5.1|1.3 元|6 元|24 元|200K
Kimi K2.6|1.15 元|6.8 元|28.8 元|256K
從這個價目表來看:
Flash 價格還是非常有競爭力的,畢竟是 1M 上下文。
Pro 的話「輸入」是比較貴的,「輸出」基本上和其他家的頂級模型差不多!
DeepSeek 另一大殺手鐧就是開源,最初就是因為它的開源,導致了整個國外大模型廠商的恐慌,以及國內生態的繁榮。
這一次也不例外,依舊大方開源,目前已經同步開源!
既然開源了,那麼稍微有點實力的,都可以部署起來了。
供給就變多了,那麼是不是 Token 要便宜一些了呢?
接下來可以期待下,看看能不能給我們這些小顯存用戶,蒸餾幾個小模型來玩玩了。
目前資訊並不多,大概就是這些了!
有了這個基礎概念和數據,我們接下來就可以搞起來了。
錢已經充好了,開發工具也配置好了,準備開搞!

從基準數據來看,妥妥多國內第一梯隊啊!
希望一切都是真的,是真的很猛!
開發者平台:platform.deepseek.com/