DeepSeek V4 首測翻車,但整體還可以!

DeepSeek V4 來了,大事啊,興沖沖就跑去測試了!

QQ20260425-000807

沒想到第一個例子就翻車了,用的是最強的 V4 Pro 版本!

花了很長時間,錯誤比較低級。

這有點出乎我意料,還好後續的例子表現還可以!

下面我就完整說一下我的測試工具、測試例子、測試過程和測試結果。

另外我也會記錄下 Tokens 消耗和花費的問題。

1、測試工具

DeepSeek 在官方文章中說了,專門對 Claude Code 等智能體工具做了優化訓練,它們也完全支援 Anthropic 協議。所以,我就選 CC 作為測試工具。

打開自己手搓的 JCode,然後配置好 DeepSeek 的 Pro 模型。

然後雙擊打開,直接開幹。

可以看到模型已經是 DeepSeek-V4-Pro,這是專業版模型,1.6T 參數,100 萬上下文。各類編程基準測試結果都是頂級。

2、測試例子

測試例子來自於之前 GLM5 和 Opus4.6 大戰的時候。其中五個題目是 GLM 出的,用來挑戰 Opus4.6。另五個例子是 Opus4.6 出的,用來捍衛自己的地位。

因為很多問題太過專業,所以我叫他們重新出了題目,必須既有娛樂性,又有專業性。

要大家都能看懂,但是寫起來有點難度。

根據上面的要求,就有了 10 個測試例子,其中一個不方便測試,被我砍掉了。

這 9 個例子已經測過很多模型了,包括國內和國外的模型。

具體的測試對象包括了 Claude Opus 4.6、Doubao2.0、Gemini3.1Pro、GLM5、Kimi-K2.5、Minmax-M2.5、GPT5.4、Qwen3.5Plus。

今天,我們可以把 DeepSeek V4 也加上了!

測試工具和測試例子都說完了,我們就可以一個一個開始測了。

3、賽博龐克版《清明上河圖》

這是我很喜歡的一個例子,很好玩。就是做一版賽博龐克風格的清明上河圖。

完整提示詞:

<div><div><div></div><span>css</span></div><div><div> <span>體驗AI代碼助手</span></div><div> <span>程式碼解讀</span></div><div>複製程式碼</div></div></div>```
<span>編寫單個 <span>HTML</span> 檔案,用瀏覽器打開後呈現動態的賽博龐克風格《清明上河圖》長卷。畫面自動從右向左捲動,包含至少 <span>50</span> 個動態元素(霓虹燈招牌、飛行汽車、全息投影廣告、機械義肢行人等),滑鼠懸停店鋪時彈出賽博風格資訊卡片。</span>

**關鍵技術點:**

- SVG/Canvas 繪圖程式能力
- CSS 動畫邏輯
- 滑鼠互動事件處理
- 美感設計與視覺呈現

然後把上面完整的提示詞放到 CC 中按下 Enter,開始幹活。

![](https://i.imgur.com/YXHqGCI.jpeg)

然後準備開盲盒了,有點小興奮,有點小期待。畢竟這是新鮮出爐的頂配 Pro 模型!

沒想到等了 10 分鐘還沒有任何動靜,我已經有點不耐煩了。

還好,再等了兩分鐘,就出結果了。

![](https://i.imgur.com/MyRDwwh.jpeg)

開發這一個頁面,**總共花了 12 分 15 秒**。

看它的總結還不錯,動態元素遠超 50 個,我估計是 50 個的十倍了。

而且還有減速、加速、反向、暫停,還設了快捷鍵。

從它描述的樣子猜測,可能和 Opus4.6 做的效果特別像。

兄弟們,穩了!

趕緊打開頁面,體驗一下吧:

![](https://i.imgur.com/1u7JoYO.jpeg)

這個頁面預設效果不錯,它提示我點擊任意位置開始瀏覽,但是我點了好久沒任何反應。

這時候我基本上斷定,肯定是 JS 出錯了。所以我把開發者模式打開看了一下主控台。

果然,有一個**Unexpected string**錯誤。

點開這個錯誤,可以定位到如下位置:

![](https://i.imgur.com/3XVjiJe.jpeg)

根據瀏覽器中的提示,是這段 JS 有問題。

比較敏銳的老程式設計師應該一眼就看出問題了。

如果你沒看出來,我們問問豆包。(別問我為什麼用豆包,問就是支援國產!)

豆包的回答如下:

![](https://i.imgur.com/k28VQMA.jpeg)

豆包一下子給我找出來三個嚴重的錯誤。

其他的我不管,感覺是瞎說的,我們就來看第一個。

這個問題的關鍵是把應該寫「冒號」的地方寫成了「逗號」。

這屬於特別低級的錯誤,這根本就不涉及任何複雜的業務邏輯,這就是單純的基本功不紮實。

雖然這只是一個逗號而已,但是程式碼就是這樣,每一個符號都很重要。

我手動修改了它的錯誤,執行之後也是爆卡,視覺效果也不太好。

第一個測試基本上宣告失敗了!

然後來看一下 API 數據:

![](https://i.imgur.com/GQw3WD9.jpeg)

總共呼叫了 3 次,其中一次是 say hello,不算。

消耗了 12.7 萬 Tokens,未命中快取 7.4 萬。

總共花了 1.64 元。

這一個例子,跑得比較慢,還有錯誤。

錯了一個沒關係,我們繼續測試,再接再厲。

4、CSS 山水畫
--------

這個例子也很好玩,要實現動態效果,但是只能用 CSS,除了實現效果還得「寫意」。

提示詞:

<div><div><div></div><span>css</span></div><div><div> <span>體驗AI代碼助手</span></div><div> <span>程式碼解讀</span></div><div>複製程式碼</div></div></div>```
<span>用純 CSS(單個 <span>HTML</span> 檔案,不允許用 JavaScript、SVG、<span>Canvas</span>、任何圖片資源)</span>
<span>畫一幅中國山水畫。要求包含:遠山、近山、瀑布流水、松樹、亭台、雲霧繚繞動效、飛鳥。越寫意越好,越像水墨越強。</span>

關鍵技術點:

  • CSS box-shadow 極限運用
  • CSS gradient(漸層)疊加技巧
  • CSS clip-path 圖形裁剪
  • CSS 動畫(雲霧、飛鳥、流水)
  • 純 CSS 繪圖能力(無 JavaScript)

結果如下:

這個例子沒有錯誤,執行正常,整體配色還可以,樹也比較像樹木,太陽、飛鳥、涼亭都不錯。就是這個山有點太尖銳、太密集了,另外右下角印章是混亂的。

這在以往的測試情況中應該屬於中等水平!

但是有一個問題,時間太久了!

寫一個頁面花了 16 分鐘,這個時間 Opus 都能從零開始開發一個專案 MVP 版本了。

再來看一下消耗情況:

這下請求數一下子上來了,到了 26 次。

Tokens 消耗來到了 126 萬!還好其中 100 萬命中快取了。

費用來到了 4.17 元!

5、完整橫版 HTML 跑酷遊戲

上面的例子都只能看,這個例子可以玩。

提示詞:

<div><div><div></div><span>diff</span></div><div><div> <span>體驗AI代碼助手</span></div><div> <span>程式碼解讀</span></div><div>複製程式碼</div></div></div>```
<span>用單個 HTML 檔案(可以用 JS + CSS,但不允許引入任何外部資源/CDN)做一個</span>
<span>完整可玩的橫版跑酷遊戲,要求:</span>
<span>​</span>
<span><span>- 角色自動奔跑,點擊/空白鍵跳躍,支援二段跳</span></span>
<span><span>- 隨機生成障礙物和金幣</span></span>
<span><span>- 有計分系統、最高分記錄</span></span>
<span><span>- 有背景視差捲動(至少 3 層)</span></span>
<span><span>- 角色死亡時有粒子爆炸特效</span></span>
<span><span>- 有開始介面和 Game Over 介面</span></span>
<span><span>- 整體視覺風格要好看(像素風或賽博龐克風均可)</span></span>

**關鍵技術點:**

- Canvas 2D 遊戲引擎開發
- 物理模擬(跳躍、重力、碰撞檢測)
- 視差捲動實現
- 粒子特效系統
- 遊戲狀態管理(開始、進行、結束)

結果:

![](https://i.imgur.com/Fghiwx5.jpeg)

這次任務完成還可以。自動奔跑、二段跳、金幣、三層背景視差這些都有。但是缺少計分和最高分。其他選手都是有的,它在遊戲時不顯示,只有掛了才顯示,這個明顯是不合理、不符合要求的。

因為這一點,只能排中等偏下了!

6、詩詞版駭客任務程式碼雨
------------

跑酷跑完了,再來一個酷炫的玩法,搞個駭客任務的程式碼雨。

提示詞:

<div><div><div></div><span>diff</span></div><div><div> <span>體驗AI代碼助手</span></div><div> <span>程式碼解讀</span></div><div>複製程式碼</div></div></div>```
<span>用一個 HTML 檔案實現駭客任務經典程式碼雨效果,但有以下創意要求:</span>
<span>​</span>
<span><span>- 下落的不是隨機字元,而是中國古詩詞(每列是一首完整的詩,從上往下逐字飄落)</span></span>
<span><span>- 背景純黑,文字漸層色(從亮綠到暗綠到消失)</span></span>
<span><span>- 當滑鼠劃過某一列時,該列暫停並高亮顯示完整詩句,旁邊浮現詩人名和朝代</span></span>
<span><span>- 至少包含 20 首不同的古詩</span></span>
<span><span>- 整體流暢度要高,不能卡頓</span></span>

關鍵技術點:

  • Canvas 動畫效能優化(大量字元流暢渲染)
  • 滑鼠互動事件處理(暫停、高亮)
  • 古詩詞知識儲備(20 首以上)
  • 視覺效果設計(漸層色、透明度過渡)

結果:

打開之後發現沒有駭客任務程式碼雨,整個頁面空蕩蕩的。不會又崩了吧!

還好還好,等了好久之後,終於出東西了:

這個等待時間大概在 12 秒左右。一般人只要 3 秒鐘不出東西,基本上肯定會關掉頁面了,嚴格來說,1 秒鐘不出東西,就會有點長了。我目前不確定它是怎麼個邏輯。

出來之後,效果還不錯,提示詞中的需求都滿足了!

個人覺得效果還可以,就是這個 12 秒要扣大分。

如果沒有這個 12 秒的延遲,應該能到中等偏上的水平!

7、AI 五子棋對戰 + 華麗 UI

這又是一個家喻戶曉、能玩的例子。

提示詞:

<div><div><div></div><span>diff</span></div><div><div> <span>體驗AI代碼助手</span></div><div> <span>程式碼解讀</span></div><div>複製程式碼</div></div></div>```
<span>用一個 HTML 檔案實現一個人機五子棋,要求:</span>
<span>​</span>
<span><span>- 棋盤是 15×15 標準棋盤,有木紋質感</span></span>
<span><span>- AI 要足夠聰明(至少能識破簡單的活三、衝四,不能讓人 3 步就贏)</span></span>
<span><span>- 落子時有動畫效果(石子從上方落下,有彈跳回彈)</span></span>
<span><span>- 連成五子時有華麗的勝利特效(粒子煙火 + 連線高亮閃爍)</span></span>
<span><span>- 支援悔棋功能</span></span>
<span><span>- 有一個「AI 思考中」的載入動畫</span></span>
<span><span>- 整體 UI 要精緻,不能是毛坯房風格</span></span>

**關鍵技術點:**

- AI 演算法(minimax + alpha-beta 剪枝)
- Canvas 棋盤渲染與木紋質感
- 落子動畫(彈跳回彈物理效果)
- 粒子煙火特效
- 遊戲邏輯完整性(勝負判斷、悔棋)

結果:

![](https://i.imgur.com/px9z733.jpeg)

這個介面設計得還是非常不錯的,提示詞中的需求也全部完成了。AI 的智商也還可以,下了很久,好不容易贏了它,一不小心就容易輸。

不過,我很快就找到了必勝的方法。

![](https://i.imgur.com/aPS15hY.jpeg)

只要按照我這個位置和順序來下,必勝!

這個例子整體來說 UI/UX 和邏輯都是中上水平,偏優秀。之前有些模型 UI 做得一塌糊塗,有些模型 AI 很弱。

8、分形煙火秀
-------

上面已經看了好幾個例子,下面來個絢麗的。

提示詞:

<div><div><div></div><span>markdown</span></div><div><div> <span>體驗AI代碼助手</span></div><div> <span>程式碼解讀</span></div><div>複製程式碼</div></div></div>```
<span>請編寫一段「祝大家 2026 新年快樂」的煙火動畫。</span>
<span>​</span>
<span><span>1.</span> 煙火爆炸的形狀不能是普通的圓,必須是<span>分形幾何圖形</span>(如曼德博集合或謝爾賓斯基三角形的變體)。</span>
<span>​</span>
<span><span>2.</span> 煙火升空的軌跡要符合物理拋物線,且爆炸後的碎片要有重力下落效果。</span>
<span>​</span>
<span><span>3.</span> 最後,所有的煙火軌跡必須在空中匯聚成「2026」這幾個大字。</span>

關鍵技術點:

  • 分形幾何演算法(曼德博集合、謝爾賓斯基三角形)
  • 物理模擬(拋物線運動、重力效果)
  • 數學演算法與視覺呈現的結合

結果:

這個專案的測試結果也不錯。煙火正常炸開了,而且沒有卡死。

最關鍵的是最後聚合成 2026 這個效果做得很好,是所有模型中完成得最好的一个!

這個例子能到優秀的水平了,整體畫面感和效果不如 Opus,但是最後這個匯聚成 2026 的效果贏了所有人。

到這裡,我們已經測試了 6 個題目了。

因為實在是等太久了,我有點麻了!

還有幾個測試稍後再做了,然後統一更新到我們的測試網站 TOPAI 上,在網站上看動態效果,對比更加明顯!

六個例子其實也不少,基本上能看出是什麼水平了。

整體看,Pro 水平還是有的,有幾個例子效果還挺好,但是有些細節問題是不應該錯的。

全面性和穩定性有待提升。

高手過招,全在穩定發揮和細節啊。

Opus4.6 一個低級錯誤都沒有,全過,而且美感在線。

另外要強調一下的是,我測試的時候感覺速度是比較慢的,可能跟使用人數有關,也可能和硬體不給力有關。

這次測試總共的花費是 9 塊多,Pro 的價格肯定不算便宜啦~~有空測一下 Flash!

這次的測試都是單個頁面、從頭開始的需求,相對來說比較簡單。

我下次講一下「JarvisBench」的測試情況(已經測完),會從一個已經開發了一半的專案開始,讓它完成功能升級,涉及到資料結構、業務邏輯,以及多個頁面的修改。

看看它在稍微複雜一點的專案中表現如何,這個是比較關鍵的一個測試!

另外我也會做一些常規的智力測試,以及全面做一個延遲和速度的測試。

所有的測試結果,我會同步到 topai.tonyhub.xyz/ 上面!


原文出處:https://juejin.cn/post/7632207921897472054


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝3   💬3   ❤️1
203
🥈
我愛JS
💬2  
7
🥉
Gigi
2
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登