我們打開整合開發環境(IDE),讓執行在雲端的模型讀取我們整個程式碼庫,增加一個空值檢查——並全程追蹤我們的行為。我們打開Google文件,讓Gemini幫我們修正一個拼字錯誤。我們啟動GPT層級的模型來優化Slack訊息、重構評論、產生縮圖。我們要把人工智慧塞進每一個有資料可供訓練的地方。
我並不是說我們不該這麼做──這是科技進步的必然規律,我們別無選擇。但不知從何時起,我們不再去思考模型規模是否與任務規模相符。而答案往往是否定的,這或許比我們願意承認的多得多。
這並非危言聳聽。我們不會被取代。我們只是仍處於早期應用階段,大多數人尚未完全理解人工智慧的本質和局限性,對其抱持過高的期望。這意味著我們仍然可以塑造它——就像我們塑造了廣播、網路和開源軟體一樣。我們只需要為這項技術找到更自然的發展路徑,以免目前的預設模式僵化成唯一的選擇。
以Qwen3-Coder-Next 為例:它擁有 800 億個參數,但只有 30 億個活躍參數——其性能卻能與活躍運算能力高出 10-20 倍的模型相媲美,而且可以在高端消費級硬體(例如配備 64GB 以上內存的 Apple Silicon Mac 或性能強勁的工作站顯可以在高端消費級硬體(例如配備 64GB 以上內存的 Apple Silicon Mac 或性能強勁的工作站顯卡卡)上執行,而無需顯卡中心架。如果參數規模再小一些,情況就更有趣了。一個針對特定任務進行微調的 Qwen3-4B 模型,其效能可以媲美一個擁有 1200 億以上活躍運算能力的模型,並且同樣可以部署在消費級硬體上。再例如Chandra——一個專為 PDF 和圖像轉換而設計的 50 億 OCR 模型,在多語言文件基準測試中,其效能超越了 Gemini 2.5 Flash 和 GPT-5 Mini 。這並非因為它更智能,而是因為它專注於特定領域。
每次重大模型發布都像是驚天動地的大事,彷彿注定要蓋過以往的一切,並將所有性能提升十倍。然而,當我們真正開始使用時,卻發現改進微乎其微——而且大多是針對特定情況的,很大程度上是模型訓練資料的衍生性商品。以Anthropic神秘發布的Mythos為例,據說「風險太大,無法發布」——我們甚至還不知道它是否真的名副其實。同時,Aisle的一篇實驗性文章已經表明,小型模型在漏洞掃描方面可以達到甚至超越Mythos的性能——雖然這只是一個早期實驗,但頗具啟發意義。
這也不是什麼新鮮事。早在2022年, Chinchilla就挑戰了「越大越好」的傳統觀念,而自那以後,越來越多的證據表明,針對特定任務,使用高品質資料訓練的小型模型可以媲美甚至超越規模大得多的同類模型。然而,我們仍然習慣性地選擇規模最大的模型,部分原因是出於習慣,部分原因是所有利害關係人都在大力推廣雲端運算模式。新聞報導往往誇大了事實,而事實是,對於大多數任務而言,我們早已過了追求更大模型帶來的利益的臨界點。
還有另一條路,它看起來不像《Cyberpunk2037》。它不需要龐大的H200叢集來美化你的履歷。它能帶來更均衡的AI分佈,而且它不會試圖取代任何人。
這條道路由小型、專用的模型組成,這些模型經過訓練,最多只能完成一項或幾項特定任務。這些模型既足夠聰明以完成其任務,又足夠小巧,不會給人造成它們正在取代任何人的錯覺。這就是未來的大規模人工智慧——一種真正的共生關係。或者更準確地說,這是對工具的合理使用。
因為人工智慧並非真正的生命體,它只是對生命體的模擬:一個精心設計的統計模型,擅長近似計算,使其看起來像是具有適應性。如果我們把它當作生命體來對待,就會每次都選擇盡可能龐大的模型,就像向真人尋求幫助一樣。如果我們把它當作工具來對待,就能讓模型與任務相匹配——就像你不會用電鋸切麵包一樣。
在實踐中,這意味著從底層建立原生AI軟體,而不是透過MCP和API呼叫遠端大型系統來整合。例如,文件編輯器內建或可插拔小型模型,用於語法檢查、結構重構和摘要,所有功能均可在本機上執行。 OCR流程專注於OCR辨識,並搭配小型RAG模型,使用戶能夠在本地搜尋和查詢大量掃描的文件或PDF檔案。影片編輯器內建小型模型,可在使用者本機剪輯和標記影片素材。遊戲內AI執行在玩家的硬體上。這些都不需要突破性的創新——模型已經存在,或者如果擁有足夠的資料,則無需耗資數十億美元的集群即可進行訓練。
目前缺少的是能夠妥善託管這些模型的軟體範式,以及將它們串連起來的編排層。如果說通用人工智慧的應用尚處於早期階段,那麼小型模型編排還處於萌芽階段:工具、規範、生態系統,一切都還在形成中。 ComfyUI 已經允許用戶將專門的圖像和視訊模型串聯到本地管道中——這是我們目前最接近可行藍圖的方案,儘管它還很脆弱,並且嚴重依賴 Python 虛擬環境。 LM Studio和Ollama使得執行本機模型變得簡單穩定,但它們更像是執行時環境,而不是編排器。這些都還處於萌芽階段——但它們證明了這種範式的可行性。而這正是值得進一步完善的部分。
大型模型並非死胡同。它們是解決真正棘手、開放式問題的理想工具——例如跨陌生程式碼庫的複雜編碼、深入分析,以及任何真正需要在廣泛背景下進行推理的任務。關鍵不在於“所有問題都應該用小型模型”,而是“不要為了修正一個拼字錯誤而使用萬億參數的模型”。
人工智慧的未來發展方向其實是混合的:一方面,在真正需要其強大功能的領域使用大型模型;另一方面,在處理絕大多數特定任務(也就是長尾任務)時,則使用小型專業模型。真正浪費的是將這兩種情況一視同仁,而不是技術本身。
用大型模型處理所有事情是條死路。不是因為它行不通,而是因為它的成本高昂,而且最終會導致糟糕的結果。每一個透過前沿模型處理的「修正拼字錯誤」指令,都相當於為計算資源集中化、資料集中化以及人工智慧下一步決策權集中化投了一票。每天有十億個這樣的指令,乘以這個數字,就會形成我們目前正在吹大的泡沫——在這個泡沫中,唯一可行的AI就是那種需要超大規模資料中心才能運作的AI。
小模型路徑不僅效率更高,它更真實地反映了大多數人工智慧任務的實際需求,並且使人工智慧不再只是我們從少數幾家超大規模資料中心租用的服務。
我們仍然可以走這條路。許多模型已經存在,其他的還有待探索和訓練。硬體也已經到位。所缺乏的是不再認為越大越好的意願,以及將“小”作為新預設標準的軟體。
原文出處:https://dev.to/kernelpryanic/are-we-using-ai-at-the-wrong-scale-2klo