眾所周知,每次有新的模型發布前端都要失業一次,前端已經成為了大模型編程能力的計量單位,所以廣大前端朋友不要破防哈!至於這次是不是真的,我們實戰測評後再見分曉。
大家好,歡迎來到 code 秘密花園,我是花園老師(ConardLi)。
就在我們還在回味上週 OpenAI 發布的 GPT-5.1 如何用“更有人情味”的互動驚艷全場,還在感嘆9月底 Claude 4.5 Sonnet 在編程領域的統治力時,Google 在昨夜(11月18日)終於丟出了它的重磅炸彈 —— Gemini 3.0。

“地表最強多模態”、“推理能力斷層領先”、“LMArena 首個突破 1500 分的模型” …… Google 這次不僅是來“交作業”的,更是直接奔著“砸場子”來的。
Sundar Pichai 在 X 上自信宣稱:“Gemini 3.0 是世界上最好的多模態理解模型,迄今為止最強大的智能體 + Vibe Coding 模型。它能將任何想法變為現實,快速掌握上下文和意圖,讓您無需過多提示即可獲得所需信息。”

這個牛吹的還是挺大的。Gemini 3.0 真的有這麼強嗎?我熬夜實測了 Gemini 3.0 Pro 的編程能力,挖掘了大量細節,為你帶來這篇最全解讀。以下是本期內容概覽:

我們先來看一下官方放出的榜單,是不是非常炸裂,除了 SWE-Bench 沒能打過 Claude Sonnet 4.5,大部分測試簡直是全面屠榜,甚至有些是斷崖式領先:

在 LMArena(大模型競技場) 榜單中,Gemini 3.0 Pro 以 1501 Elo 的積分空降第一,這是人類歷史上首個突破 1500 分大關的 AI 模型!

LMArena 是由
LMSYS組織的大眾盲測競技場。用戶輸入問題,兩個匿名模型回答,用戶憑感覺選哪个好。它代表了 “用戶體驗”和“好用程度”。很多榜單跑分高的模型不一定真的好用,但Arena分高一定好用,因為它是大眾憑真實感覺選出來的。Gemini 3.0突破1500分,說明在大眾眼中,它的體感確實有了質的飛躍。
GPQA Diamond 91.7% 的分數非常恐怖,這代表它在生物、物理、化學等博士級別的專業問題上,正確率極高。在 Humanity’s Last Exam(當前最難的測試基準,號稱 AI 的 "終極學術考試")中,在不使用任何工具的情況下達到 37.5% 。

GPQA Diamond (Graduate-Level Google-Proof Q&A) 是一套由領域專家編寫的、Google 搜不到答案的博士級難題。它是目前衡量AI“智商”的最硬核指標。只有真正的推理能力,才能在這裡得分。Gemini 3.0 能跑到 90% 以上,意味著它在很多專業領域的判斷力已經超過了普通人類專家。
Gemini 系列一直以原生多模態(Native Multimodal)著稱,Gemini 3.0 更是將這一優勢發揮到了極致,它在 MMMU-Pro 和 Video-MMMU 上分別斬獲了 81%和 87.6% 的高分,全面領先其他模型。

MMMU是聚焦大學水平的多學科多模態理解與推理基準。MMMU-pro是MMMU的升級強化版,通過過濾純文本問題、將選項增至10個、引入問題嵌於圖像的純視覺輸入設置,大幅降低模型猜測空間,是更貼近真實場景的嚴格多模態評估基準。
另外,在 ARC-AGI-2、ScreenSpot-Pro、MathArena Apex 等基準上更是數倍領先其他模型:

MathArena Apex 的題目是年全球頂級奧數比賽的壓軸題,難度和 IMO(國際數學奧林匹克)最高級別相當。之前主流 AI 模型做這些題,得分都低於 2%,直到 Gemini 3 Pro 交出 23.4% 的成績。ARC-AGI-2 是 ArcPrize 基金會 2025 年推出的通用智能測試,能重點考察 AI 的組合推理能力和高效解題思路,還通過成本限制避免 AI 靠 “暴力破解” 得分。ScreenSpot-Pro 是 2025 年新出的專業 GUI 視覺定位測試工具。它的核心任務是讓 AI 精準找到界面上的 UI 元素,比如按鈕、輸入框等。目前大多數模型的原始準確率不到 10%,而 Gemini 3 Pro 憑藉 72.7% 的準確率創下了當前紀錄。這個榜單看著確實挺恐怖的,實際效果如何,我們一起來測試一下。
以下四個位置目前均可以免費使用 Gemini 3.0:

gemini-3-pro-preview)可以更改模型參數,進行基礎對話和工具調用:
aistudio.google.com/prompts/new…
V0,可以編寫複雜的前端應用:

目前可以直接白嫖 Gemini 3 Pro 和 Claude Sonnet 4.5(不過需要美區 Google 帳號):

我們先來進入 Google Gemini 網頁版,測試一下最基礎的中文寫作能力,我們在右下角切換到 Thinking 模式,即可使用最新的 Gemini 3.0 的推理能力:

我們來讓它調研一下昨天比較火的 Cloudflare 倒閉事件,並且生成一篇工作號文章,輸入如下提示詞:
調研最新的 Cloudflare 崩潰事件,然後編寫一篇公眾號文章來介紹這個事件。注意文章信息的真實性、完整性、可讀性。
可以看到,它進行了非常長並且有條理的推理:

然後開始輸出正文,先給出了公眾號的推薦標題和摘要:

以下是完整的文章,基本沒什麼 AI 味:

接下來,我們再看看我們的老朋友豆包的生成效果:

大家覺得哪個文筆好一點呢,可以自行評判一下。
下面,我們開始測試開發能力,這時我們可以到 Google AI Studio 的 Build 功能,這其實是一個線上的 AI Coding 工具,幫你快速把想法變成可運行的網頁。
我們先來一個非常經典的測試:
::: block-1
實現一個彈力小球遊戲:
理解物理規律一直是眾多模型的最大難題之一,所以每次有新的模型出現這都是我首要測試的題目。可以看到,Gemini 依然首先給出了非常詳細且有條理的思考:

然後開始編寫代碼,我們可以切換到 Code,可以看到即時的代碼生成,輸出速度還是非常快速。一個很明顯的區別,在 Build 模式下生成的代碼並不是簡單的 HTML,而是一個含有多個文件的 React + TS 的應用,這就給了它更高的上限,可以編寫非常複雜的網頁應用,並且寫出的代碼也會更容易維護。
生成完成了,我們來看一下效果,可以發現 Gemini 對物理規律的理解是非常不錯的,而且頁面樣式和互動體驗也不錯。

在生成完成後,我們可以繼續對網站提出改進意見讓它繼續迭代,還可以直接更改網頁的代碼,還是非常方便的。
提示詞:請你幫我編寫一款賽博朋克風格的瑪莉歐小遊戲,要求介面炫酷、可玩性高、功能完整。

最終效果(經過三輪迭代,耗時 8 分鐘左右):

遊機制還原度還是非常高的,運行效果也很流暢,文章裡就不放視頻了,具體效果大家可以到 B 站視頻中去看。
開發一個擁有逼真效果的 3D 風扇 網頁,可以真實模擬風扇的運行
最終效果(經過兩輪迭代,耗時 5 分鐘左右)

這個風扇生成的還是很逼真的,支持開關、調整風扇轉速、搖頭。甚至還是個 AI 智能風扇,可以直接跟風扇語音對話讓他自己決定如何調整轉速 ...
提示詞:幫我編寫一個網站,要求儘可能的還原給你的這兩張設計圖
設計稿原圖:

一輪對話直接完成,耗時 3 分鐘左右:

最終還原效果:


這效果,基本上算是 1:1 直接還原了,並且界面上的組件都是可互動的,這個必須點讚。
在 Build 模式下,我們還可以直接選擇官方提供的各種插件,比如前段時間比較火的 Nano Banana(Gemini 的生圖模型),以及 Google Map、Veo 等服務:

我們來嘗試使用 Nano Banana 生成一個線上的 AI 圖片處理網站:
提示詞:創建一個線上的 AI 圖片處理應用,可以支持多項圖片處理能力,頁面炫酷、互動友好。

最終效果(經過三輪迭代,耗時 6 分鐘左右)

效果非常不錯,支持拖動對比圖片處理前後的效果,還支持對圖片局部進行處理:

在 Build 模式下,還有個非常有意思的功能,I'm feeling lucky,點擊這個按鈕,它會自動幫我生成一些項目靈感,如果你支持想嘗試一下 Gemini 3.0 的強大能力,但不知道要做點啥,這就是一個不錯的選擇:

比如下面這個項目,就是我基於 AI 生成的靈感而創建的:

這是一個 AI 寫作工具:支持通過輸入提示詞和文件附件,讓 AI 協助創作內容;並要求 AI 對任意段落、句子等進行迭代優化;AI 也會智能主動介入 —— 當它判斷時機合適時,主動提供反饋建議,支持嵌入式修改;
經過這幾輪測試我們發現,Gemini 3.0 編寫網站的能力確實非常強,不過這也離不開 Build 工具的加持,那脫離了這個工具後究竟效果如何呢,