Deepseek R1 已推出 - 可透過Deepseek API或免費Deepseek 聊天取得。如果您關注 LLM/Gen AI 領域,您可能已經看過標題、閱讀過貼文或觀看過讚揚該模型的影片:671B MoE 模型、開放權重、有關訓練過程的大量資訊。它以極低的成本在許多基準測試中挑戰OpenAI 的推理模型(o1/o1-mini)...還有更小的R1“精煉”版本可用於本地執行(通過llama.cpp/ollama/lmstudio 等)。
自從秋季以來,我一直在用LLM Chess對模型進行壓力測試,到目前為止,沒有一個「推理」(或「思考」)模型給我留下了深刻的印象(除了 OpenAI 的 o1)。我立即啟動了基準測試,但我必須等待幾天才能收集足夠的資料(API 似乎受到了限制;速度非常慢)。
LLM Chess模擬隨機機器人與 LLM 進行的多場比賽。數千個提示,數百萬個令牌,每個遊戲都是獨一無二的(與大多數具有固定提示/通過條件集的評估不同)。在多次執行中收集和聚合多個指標。模型的性能透過推理(獲勝/平局的百分比)和操控能力/耐用性(模型未能遵循指令或由於多次錯誤回復而退出遊戲的頻率)來評估。
在 o1 之前,LLMs無法在國際象棋中擊敗隨機玩家。 GPT-4o?零勝。克勞德 3.5 - 零。他們要么提前崩潰,要么將遊戲拖入 200 步遊戲限制(分配自動平局)。
然後是o1。 OpenAI 的「推理」模型打破了記錄:
o1-預覽版:46.67% 獲勝
o1-mini:勝率30%
其他「推理」模型? 2024 年末 o1 發布後,圍繞 OpenAI 保密性的爭議隨之而來…隱藏的「推理」代幣討論(隱形但收費)以及人們如何被禁止,因為 OpenAI 懷疑他們試圖破解自己的秘密。當時我們已經看到人工智慧實驗室引入「推理」模型來複製o1的成功。例如Qwen的QwQ、Sky T1。甚至谷歌也在 2024 年 12 月發布了他們的實驗性雙子座思維模型。
其他「推理」或「思考」模型都無法與 OpenAI 模型相媲美——即使是基本的指令,它們也會在冗長的內容中掙扎,只走幾步就退出遊戲循環:遊戲平均持續 2 到 14 步。以一個非理性的舊的和過時的 GPT-4 Turbo 為例,它平均持續 192 步(在因將死而輸給隨機玩家之前:)。
那些 2024 年末的非 OpenAI 推理模型恰好是替代模型。這讓我對R1的期望降低了...
Deepseek 的推理模型被證明是真的。它確實取得了有意義的勝利,同時保持了較低的錯誤數量。
|型號|勝利 |抽獎|錯誤|代幣/移動 |
| ---------------- | ------ | ------ | ----------- | ----------- |
| o1-預覽| 46.67% | 43.33% | 3.74 | 3.74 2660 | 2660
| o1-迷你| 30.00% | 50.00% | 2.34 | 2.34 1221 | 1221
| Deepseek-R1 | 22.58% | 19.35% | 18.63 | 18.63 4585 |
錯誤 - 每 1000 次移動中 LLM 錯誤回復的數量
R1 表現不錯,但不是很好。請注意與 o1 模型相比,它的平局次數有多少。這是由於 R1 違反了協議,違反了提示指令,或產生了非法動作的幻覺(因此導致了損失)。它很難遵循指令,並且容易受到隨機脫離遊戲循環的提示變化的影響。
以下是截至 2025 年 1 月排名前幾名的非推理模型,僅供參考:
|型號|勝利 ▼ |抽獎|錯誤|代幣/移動 |
| ------------------------------------------- | ------ | ------ | -------- | -------- |
| anthropic.claude-v3-5-sonnet-v1 | anthropic.claude-v3-5-sonnet-v1 | 6.67% | 80.00% | 0.27 | 0.27 80.42 |
| gpt-4o-2024-11-20 | 4.23% | 87.32% | 0.15 | 0.15 50.58 |
| gpt-4-turbo-2024-04-09 | 0.00% | 93.33% | 0.00 | 0.00 6.03 | 6.03
|人類.claude-v3-opus | 0.00% | 83.33% | 1.61 | 1.61 72.86 |
除了大量的勝利之外,推理模型還保持著正的平均實質差異。西洋棋遊戲中的材料計數是所有棋子的加權分數(即棋子為 1 單位材料,皇后為 9)。每個玩家開始遊戲時的材料數量為 39。其他非推理模型(以及推理「代理」)的材質差異通常為負或約為 0(如果它們無法在遊戲中打破循環)。
這是遊戲結束時平均材質差異的數字:
|型號|材質差異|平均遊戲持續時間(步數)|
|------------------------------------|------------ ------------ ---|---------------------------------- ------|
| o1-預覽-2024-09-12 | 9.99 | 9.99 124.8 | 124.8
| o1-mini-2024-09-12 | 10.77 | 10.77 142.73 |
| Deepseek-reasoner-r1 | 深度搜尋推理機 R1 10.83 | 10.83 91.77 | 91.77
| anthropic.claude-v3-5-sonnet-v1 | anthropic.claude-v3-5-sonnet-v1 | -4.48 | -4.48 183.38 |
| gpt-4o-2024-11-20 | -8.23 | -8.23 189.72 |
| qwq-32b-preview@q4_k_m | -0.07 | -0.07 7.97 | 7.97
|雙子座-2.0-flash-thinking-exp-1219 | 0.00 | 0.00 2.33 | 2.33
我還測試了幾個量化版本的 Distilled R1。 Deepseek 所做的是使用全尺寸 R1 模型的輸出微調幾個較小的(70B、14B、8B 等)Qwen 2.5 和 Llama 3.1 模型。據說他們應該獲得推理能力。輸出中還有一個特殊的<think></think>
部分,使所有推理標記與最終答案隔離(早期思維模型遺漏了一些重要的東西)。
他們做得併不好:
|型號|勝利 ▼ |抽獎|錯誤|代幣 |
| ----------------------------------- | -------- | ------ | -------- | -------- |
| deepseek-r1-distill-qwen-32b@q4_k_m | 0.00% | 0.00% | 727.27 | 727.27 2173.83 | 2173.83
| deepseek-r1-distill-qwen-14b@q8_0 | 0.00% | 0.00% | 1153.85 | 1153.85 3073.06 | 3073.06
此外,我注意到這些模型有時無法正確開啟和關閉 think 標籤(缺少 openinig <think>
)。
R1 發布後的第二天,Google 也發布了 Gemini Thinking 的更新!
它比 12 月的版本好多了!至少它現在是可操縱的,並且可以在遊戲中持續約 40 步。他們還加入了思維部分的分離,而不是用推理標記來誇大回應。而且,它也是一個思維替代者…
|型號|勝利 ▼ |抽獎|錯誤|代幣 |
| ----------------------------------- | -------- | ------ | -------- | -------- |
|雙子座-2.0-flash-thinking-exp-01-21 | 0.00% | 6.06% | 5.97 | 5.97 17.77 | 17.77
|雙子座-2.0-flash-thinking-exp-1219 | 0.00% | 0.00% | 1285.71 | 1285.71 724.54 | 724.54
奇怪的是,大多數遊戲退出都是由於伺服器錯誤(例如某些版權過濾器)或獲得空完成而發生的 - 模型肯定存在穩定性問題。
原文出處:https://dev.to/maximsaplin/deepseek-r1-vs-openai-o1-1ijm