小編精選 - 技術文章翻譯 · 04月26日

天下苦 Token 久矣，DeepSeekV4 終於來了！

天下苦 Token 久矣，DeepSeek V4 終於來了！

「鴿王」DeepSeek V4 終於來了～！

雖然從物理時間上看，V3 到 V4 只用了一年多時間。但是整個 AI 界已經天翻地覆了，從我們的心理感受來說，也是過了好久好久了。

好不好先不說，能更新，就是件好事情了。

最好是能把全球的 Token 價格打下來！

下面就趕緊來看一下，有哪些亮點吧！

目前可以看到的資料是一篇官方的公眾號文章。

標題為《DeepSeek-V4 預覽版：邁入百萬上下文普惠時代》

我們就以這篇文章為準，來看看這次更新到底有什麼亮點。

第三方平台和很多媒體號肯定是要尬吹一波的，不要當真！

這篇文章第一個總結下面的描述是：

「DeepSeek-V4 擁有百萬字超長上下文，在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。」

然後來看正文！

兩個尺寸

DeepSeek 這次的發佈沒有 R 系列，而是兩個 V 系列的版本！

一個叫 V4-Pro，另一個叫 V4-Flash。

這種搭配非常常見，Google 也是一直這麼來的，國內 GLM 也有專門的 Flash 版本。

我把這個表格丟給了「豆包和千問」，問它們這個參數在目前的國產模型中是什麼級別。

它們都告訴我是頂級。

1.6T 的參數、49B 啟用以及 1M 的上下文，在目前看來應該都是 TOP 級別的存在了！

Pro 性能拉滿

然後他們重點介紹 Pro 這個模型，描述用詞為「性能比肩頂級閉源模型」！

並給出了一張基準圖：

這個圖表風格還是很樸實的，數據表現也很不錯。

這張圖主要展現了Agent 能力、世界知識、推理能力這三個維度。

世界知識和推理能力主要作為日常使用模型的核心能力。

而對於我們這種比較關注程式設計和工程實踐的人，最關注的是智慧體的能力。

更詳細的基準數據如下：

我們把目光聚焦到 Agentic 這一欄目。

這次的對比選手有 K2.6、GLM5.1、Opus4.6、GPT5.4、Gemini3.1 Pro。這些模型的配置全都拉到了 xhigh 或者 Max，也就是最強的那一檔。

DeepSeek V4 的基準數據還比較全面，有些模型發佈的時候基準很少。

我們可以快速了解一下幾個基準含義。

SWE 系列主要體現程式碼工程能力，全稱叫Software Engineering Benchmarks。

Terminal Bench 2.0 (Acc) —— 終端／系統操作能力

BrowseComp (Pass@1) —— 網頁瀏覽與資訊檢索

Toolathlon (Pass@1) & MCPAtlas —— 工具呼叫能力

HLE w/tools & GDPval-AA —— 邏輯與綜合評分

從圖中可以看到幾個亮點：

程式碼能力很強（SWE Verified 80.6%），這是目前業界最難啃的骨頭，比 K2.6 和 GLM5.1 高。

系統操作能力極強（Terminal Bench 67.9%），比國外的 Opus4.6 和國內的 K2.6、GLM5.1 高。

其他參數也非常亮眼，看起來是一個全能型的智慧體模型。

當然，我也一直強調，基準測試是開卷考，有多少水分全看節操。

Flash 高效省錢

對於大模型廠商來說，Pro 一般是來秀肌肉的，而對用戶來說，真正拿來用的很可能是 Flash。因為很多時候，快和省很重要。

Flash 模型的官方介紹：

Flash 在世界知識儲備方面稍遜一籌，但展現出了接近的推理能力。而由於模型參數和啟用更小，相較之下 V4-Flash 能夠提供更加快捷、經濟的 API 服務。

另外還說到了在 Agent 場景中，簡單任務上與 Pro 旗鼓相當，但是高難度任務上仍有差距。

結構創新和 1M

說了模型的尺寸和特點之後，就說到了 V4 開創了一種全新的注意力機制。

這種機制在 token 維度進行壓縮，結合 DSA 稀疏注意力，實現了全球領先的長上下文能力，並且相比於傳統方法大幅降低了對計算和顯存的需求。

如果真的能做到既降低技術和顯存，又能提升能力，這真的是大好消息。

智慧體專項優化

現在的大模型更新，沒有一個不談 Agent 的，V4 也不例外。

上面已經說了好幾次了，官方文章中還是專門拿出一個大標題來講這件事。

主要是表達了 DeepSeek-V4 針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 產品進行了適配和優化，在程式碼任務、文件生成任務等方面表現均有提升。

然後舉了一個 PPT 的例子：

我對 PPT 無感，大家可以看一下效果！

價格問題

這是一個非常關鍵的問題，尤其是對 DeepSeek 而言。

它剛開始大火，讓大家愛不釋手，其中一個重要原因就是成本低。訓練成本、使用成本也低。

下面來看下 V4 的價格：

注意小字部分，昪騰 950 批量上市之後，Pro 價格會大幅下調。壓力來到了華為這邊，不要拖後腿哦！

未來的事情我們未來再說，先來看看當下這個價格有沒有競爭力。

我讓 AI 幫我做了一個表格：

模型｜快取命中｜快取未命中｜輸出｜上下文長度
DeepSeek V4-Pro｜1 元｜12 元｜24 元｜1M
DeepSeek V4-Flash｜0.2 元｜1 元｜2 元｜1M
GLM-5.1｜1.3 元｜6 元｜24 元｜200K
Kimi K2.6｜1.15 元｜6.8 元｜28.8 元｜256K

從這個價目表來看：

Flash 價格還是非常有競爭力的，畢竟是 1M 上下文。

Pro 的話「輸入」是比較貴的，「輸出」基本上和其他家的頂級模型差不多！