阿川私房教材:
學 JavaScript 前端,帶作品集去面試!

63 個專案實戰,寫出作品集,讓面試官眼前一亮!

立即開始免費試讀!

2025年3月發布了一些新的開源模型,其中兩個是阿里巴巴的QwQ 32B模型和谷歌的新Gemma 3 27B模型,據說它們擅長推理。 🤔

讓我們看看這些模型彼此之間以及與最好的開源推理模型之一 Deepseek R1 模型之間的比較。

火 GIF

而且,如果您已經閱讀我的帖子很長一段時間了,您就會知道,在我親自測試之前,我不會同意這些基準! 😉

TL;DR

如果你想直接得出結論,那麼當與這三個模型進行比較時,答案並不像其他部落格文章中那麼明顯,QwQ 在編碼方面領先,但其他兩個模型在推理方面同樣一流。

描述 QwQ 32B 型號的推文

如果用於編碼,請選擇 QwQ 32B 型號或 Deepseek R1,或用於其他任何事情,Gemma 3 同樣很棒,應該可以完成您的工作。


QwQ 32B型號簡介

3月第一周,阿里巴巴發布了這款模型大小為32B的新機型,聲稱能夠與模型大小為671B的Deepseek R1相媲美。 🤯

QwQ 32B 型號發布推文

這標誌著他們在擴展RL(強化學習)以提高模型推理能力方面邁出了第一步。

以下是他們公開的基準測試,以突出 QwQ-32B 與另一款領先型號 Deepseek R1 相比的性能。

QwQ 基準與其他型號的比較

現在,這看起來更有趣了,特別是與大約20 倍大小的車型 Deepseek R1 進行了比較。


Gemma 3 27B 型號簡介

Gemma 3是Google基於Gemini 2.0全新開源模型。模型有 4 種不同尺寸(1B、4B、12B 和 27B),但這並不是有趣的。

據稱它是“可以在單一 GPU 或 TPU 上執行的功能最強大的模型” 。 🔥 這直接表示該模型能夠在資源有限的設備上運作。

Gemma 3 27B 可在單一 GPU 上執行

它支援128K 上下文窗口,支援超過140 種語言,主要用於推理任務。

然而,許多人認為 Gemma 3 27B 模型在不同的編碼基準測試中表現並不那麼出色。

Reddit 上關於不同 AI 模型的討論

讓我們看看事實是否如此,以及該模型的推理能力如何。


編碼問題

💁 在本節中,我將透過動畫和一道棘手的 LeetCode 問題來測試這三種模型的編碼能力。

1. 旋轉字母球

提示:建立一個由字母組成的旋轉 3D 球體的 JavaScript 模擬。距離最近的字母應採用較亮的顏色,而距離最遠的字母應採用灰色。

QwQ 32B 的回复

您可以在此處找到它生成的程式碼:連結

這是程式的輸出:

https://youtu.be/ZInRn5rZOuM

我們從 QwQ 得到的輸出完全是瘋狂的。它完全符合我的要求,從動畫到字母旋轉到顏色變化。一切都恰到好處。超好的!

Gemma 3 27B 的回复

您可以在此處找到它生成的程式碼:連結

這是程式的輸出:

https://youtu.be/LCzsLehUNIk

它似乎沒有完全遵循我的提示。似乎確實發生了一些事情,但我要求的是一個 3D 球體,它似乎有一個帶有字母的旋轉環。

知道這個模型在編碼方面並不是那麼好,但至少我們得到了一些工作!

Deepseek R1 的回复

您可以在此處找到它生成的程式碼:連結

這是程式的輸出:

https://youtu.be/\_uLoYfv7Dog

它也得到了正確的結果並實現了我所要求的內容。毫無疑問,但與 QwQ 32B 型號的輸出相比,就整體輸出而言,這似乎確實無法比較。

概括:

在本節中,毫無疑問,QwQ 32B 型號是贏家。它確實擊敗了我們的動畫編碼測試和困難的 LeetCode 問題。將這些小模型與模型大小為 671B(每個查詢啟動 37B)的 Deepseek 進行比較似乎不太公平,但令人驚訝的是,QwQ 32B 在這裡擊敗了 Deepseek R1。

2. LeetCode 問題

為此,讓我們用一個超難的 LeetCode 問題進行快速的 LeetCode 檢查,看看這些模型如何解決一個棘手的 LeetCode 問題(接受率僅為 14.4%)強密碼檢查器

考慮到這是一個很難的 LeetCode 問題,我對這三個模型都不抱什麼希望,因為它們不如 Claude 3.7 等其他一些程式碼模型那麼好。

如果您想了解Claude 3.7Grok 3o3-mini-high等頂級型號的比較情況,請查看此部落格文章:

https://dev.to/composiodev/claude-37-sonnet-vs-grok-3-vs-o3-mini-high-coding-comparison-23oe

Prompt:

A password is considered strong if the below conditions are all met:

- It has at least 6 characters and at most 20 characters.
- It contains at least one lowercase letter, at least one uppercase letter, and at least one digit.
- It does not contain three repeating characters in a row (i.e., "Baaabb0" is weak, but "Baaba0" is strong).

Given a string password, return the minimum number of steps required to make password strong. if password is already strong, return 0.

In one step, you can:

- Insert one character to password,
- Delete one character from password, or
- Replace one character of password with another character.

Example 1:

Input: password = "a"
Output: 5

Example 2:

Input: password = "aA1"
Output: 3

Example 3:

Input: password = "1337C0d3"
Output: 0

Constraints:

1 <= password.length <= 50
password consists of letters, digits, dot '.' or exclamation mark '!'.

QwQ 32B 的回复

您可以在此處找到它生成的程式碼:連結

媽呀,答案竟然正確了。不僅如此,它還能夠在O(N)時間複雜度內編寫整個程式碼,這在預期的時間複雜度範圍內。

如果我必須比較程式碼質量,我會說它還不錯。它不僅有好的程式碼,還正確地記錄了一切。公平地說,該模型似乎具有很大的潛力。

儘管花了很多時間去思考,但真正重要的是可行的答案。

QwQ 32B 測驗的 LeetCode 問題答案

Gemma 3 27B 的回复

您可以在此處找到它生成的程式碼:連結

好吧,Gemma 3 在這方面有所欠缺。 54 個測試案例中有 39 個通過,幾乎完成了一半,但這種錯誤的程式碼甚至沒有任何幫助。最好不要費心產生程式碼,而要寫糟糕的程式碼。 🤷‍♂️

但考慮到該模型是只有 27B 個參數的開源模型,並且在單一 GPU 或 TPU上執行,這是我們可以考慮的一件事。

Gemma 27B 測驗的 LeetCode 問題答案

Deepseek R1 的回复

在這個問題上我對這個模型幾乎不抱任何希望。在我之前的測試中,我將 Deepseek R1 與 Grok 3 進行了比較,結果 Deepseek R1 失敗得相當慘。如果你想看一看:

https://dev.to/composiodev/grok-3-vs-deepseek-r1-a-deep-analysis-2kcl

您可以在此處找到它生成的程式碼:連結

太棒了,54 個測試案例中有51 個通過了,幾乎成功了。但即使一個測試案例失敗也會導致提交錯誤,所以,Deepseek R1 的運氣很差。

Deepseek R1 測驗的 LeetCode 問題答案

概括:

當在兩個編碼問題上比較這三個模型時,結果非常清楚。 QwQ 32B 型號顯然是贏家🔥,Gemma 3 27B 確實嘗試過,但絕對不是您想要用於高級編碼的東西。關於 Deepseek 真的不能說太多,它雖然中等,但可以解決大多數基礎到中級的編碼問題,因為我每天都會使用這個模型。


推理問題

💁 在這裡,我們將檢查這兩個模型的推理能力。

1.水果交換

讓我們從一個非常簡單的問題(一點也不棘手)開始,這需要一點常識。但讓我們看看這些模型是否具備它。

我只是想測試模型是否能夠解析所要求的內容、推理所需內容或處理給出的所有內容。類似詢問10000*3456*0*1234是什麼? 🥱

提示:你一開始有 14 個蘋果。艾瑪拿了 3 個,但還給了 2 個。你丟下 7 個,撿起 4 個。利奧拿了 4 個,還給了 5 個。你從艾瑪那裡拿走了 1 個蘋果,並與利奧交換了 3 個蘋果,然後把這 3 個蘋果給艾瑪,她遞給你一個蘋果和一個橘子。扎拉拿走了你的蘋果並給了你一個梨子。你用梨子和 Leo 交換一個蘋果。後來,札拉用一個蘋果換了一個橘子,並用另一個蘋果和你交換。你有幾個梨子?只回答我所問的問題。

如你所見,我們用蘋果和橘子提供了所有不必要的背景,但對於梨,也就是所要求的,它最後只有一筆交易,導致我們擁有 0 個梨子。

QwQ 32B 的回复

你可以在這裡找到它的理由:連結

QwQ 32B 模型的推理問題答案

正如我所想,它似乎完全缺乏。 😮‍💨 說真的,它思考了 172 秒(約 2.9 分鐘)來進行蘋果和橘子的所有計算。 QwQ 32B 確實令人失望。

Gemma 3 27B 的回复

你可以在這裡找到它的理由:連結

Gemma 3 27B 模型的推理問題答案

只需幾秒鐘,它就能計算出所有情況並返回梨子的總數。這裡確實沒什麼好抱怨的。

響應確實非常快,對這個模型印象深刻。

Deepseek R1 的回复

你可以在這裡找到它的理由:連結

Deepseek R1 模型的推理問題回應

它思考了大約一分鐘並找到了答案。我原本以為它會給出正確答案,但我只是想看看它是否能給出我所問問題的答案,而不用進行所有不必要的計算。遺憾的是,它也失敗了。

概括:

說實話,對於這個問題,我並不是在尋找正確的答案;甚至連一年級的小學生都能回答這個問題。我只是想看看這些LLMs是否能過濾掉所有不必要的細節並只回答所問的問題,但遺憾的是,它們都失敗了,儘管我加入了這句話: “只回答我所問的問題”。在提示的末尾。 😮‍💨

2.電梯裡的女人

提示:一位禿頭、瘦弱的女人住在一棟公寓的 78 樓。在陽光明媚的日子裡,她會搭電梯到 67 樓,然後步行走完剩下的路程。下雨天,她就直接搭電梯到自己要住的樓層。為什麼下雨天她要搭電梯直達她的樓層?

這個問題有點棘手,因為我加入了類似的不必要的細節,以分散LLMs的注意力,使他們無法輕易找到答案。答案是,這位女士個子矮,夏天搆不到按鈕,但她帶著傘,可以把電梯按鈕壓到更高的地方。

答案與女孩是否禿頭或瘦弱無關。 🥴

QwQ 32B 的回复

你可以在這裡找到它的理由:連結

QwQ 32B 模型的推理問題答案

這裡花了很長時間,311 秒( ~5.2 分鐘),而且花了一些時間才弄清楚這與她禿頭和瘦弱有什麼關係,但在這裡,我對反應印象深刻。

它解釋其思考過程的方式確實令人印象深刻。您可能也想看一看。

公平地說,QwQ 32B 確實正確並且完美地解釋了一切。 ✅

Gemma 3 27B 的回复

你可以在這裡找到它的理由:連結

Gemma 3 27B 模型的推理問題答案

Gemma 3 確實讓我震驚,幾秒鐘之內,它就答對了。該模型在推理任務上看起來很可靠。到目前為止,我對 Google 的這種開源模式印象深刻。 🔥

Deepseek R1 的回复

你可以在這裡找到它的理由:連結

Deepseek R1 模型的推理問題回應

我們知道 Deepseek 在推理任務方面表現非常出色,因此它得出正確答案也就不足為奇了。

花了一些時間才得出答案,大約思考了 72 秒( ~1.2 分鐘),但我喜歡它每次提出的推理和思考過程。

確實很難理解這個問題與女人禿頭和瘦弱有什麼關係,但是,嘿,這就是我加入它的原因。 🥱

Deepseek R1 對問題的回應

概括:

毫無疑問,這三種模型都非常擅長推理問題。我特別喜歡 QwQ 32B 和 Deepseek R1 模型解釋他們的思考過程的方式,以及 Gemma 3 回答這兩個問題的速度。這三個模型都能以 10/10 的成績獲得答案✅,但 QwQ 32B 有時可能會覺得它的推理不必要。 🤷‍♂️


數學問題

💁 查看了這三個模型的推理問題答案,我確信這兩個模型也應該通過數學問題。

1. 鐘針呈直角

提示:在 5:30 到 6 點之間,什麼時候時鐘的指標會成直角?

QwQ 32B 的回复

你可以在這裡找到它的理由:連結

QwQ 32B 模型的數學問題解答

Gemma 3 27B 的回复

你可以在這裡找到它的理由:連結

Gemma 3 27B 模型的數學問題解答

除了編碼問題之外,Gemma 3 也答對了這個問題,並且在我提到的所有推理和數學問題中都表現出色。這是一個多麼微小但又強大的模型。

真的非常感動! 🫡

Deepseek R1 的回复

你可以在這裡找到它的理由:連結

Deepseek R1 模型的數學問題答案

從我的這篇比較 Deepseek R1 和 Grok 3 的文章中,我們已經可以清楚地看到 Deepseek 在數學方面的表現有多好,所以我對這個模型寄予厚望。

像往常一樣,它也答對了這個問題。它確實經過了長時間的推理和思考才得出答案,但它確實得出了答案。

概括:

這三種模型在推理和數學方面都表現得非常好。他們都答對了。 Gemma 3 27B 很快就做到了這一點,另外兩款型號 QwQ 32B 和 Deepseek R1 也透過合理的推理擊敗了它。 ✅

2. 字母排列

提示:單字「MATHEMATICS」的字母可以有多少種不同的排列方式,使得母音總是連在一起?

這是向LLMs (LLM) 提出的經典數學問題,所以讓我們看看這三個模型的表現如何。

QwQ 32B 的回复

你可以在這裡找到它的理由:連結

QwQ 32B 模型的數學問題解答

經過 552 秒( ~9.2 分鐘)🥱 的思考,是的,它確實花了那麼長時間才想出答案,但一如既往,它也回答了這個問題。

我同意它的所有推理都感覺非常冗長和無聊,但如果它能完成任務,那麼這就是它的好的一面。 QwQ 32B 型號確實看起來非常堅固並且解決了迄今為止的所有問題。 🔥

Gemma 3 27B 的回复

你可以在這裡找到它的理由:連結

Gemma 3 27B 模型的數學問題解答

完全正確。該模型的響應速度和準確性令人驚嘆。谷歌確實在這個模型上做得很好,這一點毫無疑問。 😵

Deepseek R1 的回复

你可以在這裡找到它的理由:連結

Deepseek R1 模型的數學問題答案

經過大約 132 秒( ~2.2 分鐘)的思考,它終於得出了答案,而且再次是 Deepseek R1 的正確答案。

概括:

這次的答案也很明顯。我們的三個模型都完美地實現了這一點,並給出了完美的解釋和推理。對於如此棘手的問題,從所有三個模型中獲得的答案非常令人印象深刻,對我來說,Gemma 3 27B 脫穎而出。多麼輕量級的實體模型。 🔥


結論

結果非常明顯。對我來說,經過這麼一番比較,如果一定要選一個型號的話,那還是Deepseek R1。 QwQ 32B 型號的表現確實非常出色,可以說是這次比較的明顯贏家。 ✅ 其他一些測試模型的人似乎也遇到了同樣的情況。 👇

推文欣賞 QwQ 32B 型號

但對我來說,Deepseek R1 模型感覺像是一個具有平衡推理和整體反應時間的最佳點。

儘管 Gemma 3 和 Deepseek R1 無法完全正確回答編碼問題,但他們的整體推理能力實在是太好了。 Gemma 3 27B 型號給我留下了深刻的印象。這確實是您工具箱中應該擁有的模型。

你怎麼認為?請在下面的評論中告訴我您的想法! 👇

https://dev.to/shricodev


原文出處:https://dev.to/composiodev/gemma-3-27b-vs-qwq-32b-vs-deepseek-r1-comparison-4o90


共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。

阿川私房教材:
學 JavaScript 前端,帶作品集去面試!

63 個專案實戰,寫出作品集,讓面試官眼前一亮!

立即開始免費試讀!