大家好,我是二哥呀。
粗略算一下,我每個月的 token 帳單在 4000 多,其中 Claude 和 Codex 佔大頭。
說不心疼是假的,但這些錢在 AI 時代又必須得花,因為幾乎每天都在高強度使用。

尤其是處在專案密集開發期的時候,token 的消耗非常大,所以我對免費的 token 是非常渴望的。
這不,必須得告訴大家一個好消息。
Agnes AI 宣布無限期免費開放全模態模型 API。文字、圖片、影片,三條線全免費,不限量哦。

我拿到的一個資料樣本是這樣的。全模態總 Token 呼叫量達到 3.12T,其中文字模型 Agnes-2.0-Flash 貢獻了約 1.9T;視覺模型 Agnes-Image-2.1-Flash + Agnes-Video-2.0 合計貢獻了約 1.2T。
非常恐怖的一個資料啊!
說明大家對免費 token 的需求真的非常大。
我也是第一時間就把 Agnes 的這三個模型接到了 PaiAgent(我的一個開源專案),從文字對話到圖片生成到影片輸出,一條龍跑完。

系好安全帶,我們粗粗粗發~
Agnes 的註冊流程很快
登入後在控制台建立 API Key。

Agnes 的 API 是相容 OpenAI 格式的,Base URL 是 https://api.agnes-ai.com/v1,認證方式和 OpenAI 一樣,在 Header 裡傳 Authorization: Bearer <API_KEY>。
這意味著市面上所有支援 OpenAI 介面的工具、框架和平台,改一下 Base URL 和 API Key 就能直接用 Agnes 的模型。
簡單給大家介紹下,PaiAgent 是一個類似 Dify 的企業級工作流編排平台,用到了 LangGraph4J、SpringAI、MCP、Skill、React 等一系列 AI Agent 相關的技術棧。

好,我們繼續上實戰。
在 PaiAgent 的全域模型配置裡,新建一個配置,供應商選 Agnes,API 地址填圖上有,模型名填 agnes-2.0-flash,API Key 填之前複製的那個。

為了支援圖片和影片生成,圖片模型填 agnes-image-2.1-flash,影片模型填 agnes-video-2.0,儲存即可。

TTS 預計本週五灰度,到時候我也會第一時間接入。
有了語音能力,Agnes 就真正實現了全模態覆蓋,文字、圖片、影片、語音四條線齊活。
Agnes-2.0-Flash 是一個通用文字模型,覆蓋對話、程式碼生成、知識問答、任務規劃和工具呼叫。
在 Claw-Eval 評測中,它的 Safety 得分達到 97.2、Robustness 得分 95.4,這兩個維度衡量的是模型在對抗性輸入下的穩定性和安全性,屬於 Agent 場景下的硬指標。

Claw-Eval 和傳統 Benchmark 不同,評測的不是數學題和選擇題,而是模型在真實 Agent 場景下的綜合執行能力,包括工具呼叫準確性、多步驟規劃和複雜上下文保持。

是最接近 AI Agent 實戰能力的評測。
Agnes-2.0-Flash 已支援 1M 上下文,我在 PaiCLI 裡設計了三個測試用例,分別驗證長文件理解、程式碼生成和工具呼叫能力。

第一個測 1M 上下文。我把 Spring AI 的官方文件(大約 15 萬字)整份餵給 Agnes-2.0-Flash,然後問它「Spring AI 的 Tool Calling 和 MCP 的 Function Calling 在實作機制上有什麼區別」。這個問題的答案散落在文件的不同章節裡,需要模型把前面關於 Tool 註解的描述和後面關於 MCP 協議的細節關聯起來才能回答準確。Agnes 給出的答案準確抓住了兩者在設計層面的核心差異,引述的內容也能在原文件中對應上。換成 128K 上下文的模型,這份文件塞不進去,只能先做 RAG 檢索再拼接,中間的資訊損失不可避免。
第二個測程式碼生成。我讓它從零寫一個完整的 Spring Boot REST API demo,要求包含使用者 CRUD、JWT 驗證和 Swagger 文件配置。生成的程式碼結構清晰,Controller、Service、Repository 分層合理,JWT 過濾器的實作也沒有明顯的安全漏洞。拿過來跑 mvn spring-boot:run,改一下資料庫連線就能啟動。我還追加讓它加上參數驗證和全域例外處理,補充的程式碼和前面生成的風格保持一致,沒有出現前後矛盾的情況。對於一個免費模型,這個程式碼生成品質夠用了。
第三個測工具呼叫(Function Calling),這也是 Claw-Eval 重點考察的能力。PaiCLI 內建了 read_file、write_file、execute_command、grep_code、web_search 等工具,模型需要根據使用者意圖自主判斷呼叫哪個。我測了一個複合場景,讓它「查一下 PaiCLI 專案裡有沒有硬編碼的 API Key,找到的話幫我改成從環境變數讀取」。Agnes-2.0-Flash 先調 grep_code 搜尋關鍵字,再調 read_file 確認上下文,最後調 write_file 完成修改,整條工具呼叫鏈的參數格式全部正確,也沒有憑空捏造工具名。對於編碼助手來說,工具呼叫的準確性比對話品質更重要。
這個模型免費前的價格是輸入 0.03/1Mtokens、輸出 0.03/1M tokens、輸出 0.03/1Mtokens、輸出 0.15/1M tokens,大概是同類模型價格的一半。現在直接免費了。
Agnes-Image-2.1-Flash 在 Artificial Analysis 的圖片品質評測中取得了 Elo 1191 的成績(基於 4494 個樣本的盲評資料)。這個評測用的是真實使用者盲評機制,評測者不知道圖片是哪个模型生成的,純粹按畫面品質打分。作為一個免費模型,能在以付費模型為主的榜單裡站住腳,已經超出預期。
【此處插入Artificial Analysis 圖片榜單截圖:截圖目標:證明 Agnes 圖片模型在盲評榜單中的排名;關鍵字:Artificial Analysis、圖片編輯、排名;建議位置:網頁】
免費前的價格是 3/1000 張圖,相比海外部分圖像模型 30/1000 張的定價,Agnes 本來就便宜。現在連這 3 塊錢都省了。
圖片模型的 API 同樣相容 OpenAI 格式,核心參數就四個。
json 代碼解讀複製代碼{
"model": "agnes-image-2.1-flash",
"prompt": "提示詞",
"size": "1K",
"ratio": "1:1"
}
size 支援 1K、2K、3K、4K 四檔,ratio 支援 1:1、3:4、4:3、16:9、9:16、2:3、3:2、21:9 八種寬高比。本週 4K 輸出能力上線後,最高可以生成 4096×4096 的超高清圖像。
我在 PaiAgent 裡用圖片生成節點實測了幾個場景。
文生圖,提示詞是「一座城市夜景,高樓林立,霓虹閃爍,雨水反射著光影,賽博龐克風格,整體很有電影感」。出圖速度大約 4-5 秒,畫面的光影層次和雨水反射細節確實到位,賽博龐克的氛圍感很到位。
【此處插入賽博龐克城市夜景生成圖:截圖目標:展示文生圖的畫面品質;關鍵字:賽博龐克、城市夜景、光影;建議位置:網頁】
人像生成,提示詞是「一位面目滄桑的老人,高品質,照片級真實感,王家衛電影風格,使用柯達 Portra 800 底片拍攝,高對比度」。這張圖我反覆看了好幾遍,皮膚紋理、光影過渡、底片顆粒感都有,不像 AI 生成的「塑膠感」。
【此處插入老人人像生成圖:截圖目標:展示人像生成的真實感;關鍵字:人像、底片感、寫實;建議位置:網頁】
圖生圖,先準備一張原圖,讓模型把人物表情改成自然的微微一笑。Agnes-Image-2.1-Flash 的編輯能力支援圖改圖、多圖融合、局部修改、背景替換、風格轉換、文字編輯和影像修復,總共七種編輯模式。我試了一下證件照場景,上傳一張普通照片,提示詞寫「將圖像生成一張藍底證件照」,出來的結果背景替換得很乾淨,人物邊緣沒有明顯的毛邊。
【此處插入證件照生成對比圖:截圖目標:展示圖生圖的編輯能力;關鍵字:證件照、背景替換、編輯;建議位置:網頁】
4K 能力上線後,對電商主圖、產品海報、廣告素材這類需要高解析度輸出的場景會更友好。只需要把 size 參數從 "1K" 改成 "4K",其他程式碼不用動。免費生成 4K 圖片,這個誠意確實夠足。
Agnes-Video-2.0 支援原生音畫同步生成,輸出解析度可選 720P 和 1080P。免費前的價格是 $0.3/分鐘,一條 10 秒的 720P 影片只需要 3 毛錢。
在 Artificial Analysis 的 Video Leaderboard 上,Agnes-Video-2.0 同樣進入了前列。
【此處插入Artificial Analysis 影片榜單截圖:截圖目標:證明 Agnes 影片模型在榜單中的排名;關鍵字:Video Leaderboard、排名、音畫同步;建議位置:網頁】
影片模型的能力矩陣包括首幀生影片、首尾幀生影片、多幀生影片、多鏡頭內容生成、人物內容生成、景別切換、第一視角運鏡和光影氛圍塑造。
我在 PaiAgent 的影片生成節點跑了三個測試。
第一個是純文字生影片。提示詞是「一場 GT3 賽車比賽,晴天日間,一輛 88 號紅色法拉利領跑,遠景、中景、特寫來回切,要電影質感」。生成耗時大約 40-60 秒,出來的影片鏡頭切換確實有節奏感,從遠景的賽道全貌切到中景的彎道超車再到特寫的輪胎摩擦,配合原生音效,引擎轟鳴和輪胎尖叫都是模型自動生成的,整體氛圍很到位。
【此處插入賽車影片截圖:截圖目標:展示文生影片的畫面品質和鏡頭切換;關鍵字:賽車、鏡頭切換、電影質感;建議位置:網頁】
第二個測試的提示詞是「一支搖滾樂隊在演出,主唱揮手帶動觀眾,背景射燈從暖黃逐漸過渡到冷藍」。這條影片的亮點在光影過渡,射燈顏色的漸變很自然,不是那種突然跳色的效果。音畫同出的特性也發揮了作用,背景裡能聽到隱約的音樂和觀眾吶喊。
【此處插入搖滾樂隊影片截圖:截圖目標:展示光影過渡和音畫同步效果;關鍵字:搖滾樂隊、光影過渡、音畫同步;建議位置:網頁】
第三個是圖生影片。我找來一張跑車的圖片作為首幀,提示詞讓模型基於這張圖片生成一段高速公路追逐大片。這個場景更考驗模型對參考圖的理解和運動連貫性。生成出來的影片在保持車輛外觀一致性方面做得不錯,運鏡也有追逐片的緊迫感。
【此處插入圖生影片效果截圖:截圖目標:展示首幀生影片的效果和運動連貫性;關鍵字:圖生影片、追逐、運鏡;建議位置:網頁】
關於音畫同步,多說兩句。市面上大部分影片模型生成的是純畫面,音訊需要額外用 TTS 或音效模型來配。Agnes-Video-2.0 原生輸出帶音訊的影片檔,引擎聲、音樂聲、環境音都是模型根據畫面內容自動匹配的。賽車場景有引擎轟鳴,演唱會場景有樂器和人聲,這種匹配精度在免費模型裡確實少見。當然,原生音訊的品質和專業音效工具比還有差距,但對於短影片、產品 Demo 這類場景已經夠用了。
PaiAgent 的影片生成節點內部實作了一個輪詢機制,先提交生成任務拿到 taskId,然後每 5 秒查詢一次任務狀態,直到生成完成或逾時(最長 5 分鐘)。生成完的影片會自動轉存到 MinIO 物件儲存,返回可存取的 URL。整個流程對使用者透明,在工作流畫布上拖一個影片生成節點,填好提示詞,點執行就行。影片生成的 API 和文字、圖片不同,它是非同步的,需要先提交再輪詢。PaiAgent 把這個非同步流程封裝在了節點執行器內部,透過 SSE 協議向前端推送生成進度,使用者在畫布上能即時看到「生成中 30%」「生成中 80%」這樣的進度回饋。
Agnes 模型免費開放兩週以來,GitHub 上已經出現了多個圍繞 Agnes AI 的開源專案(截至 2026-06-16 透過 GitHub API 檢索)。專案類型涵蓋 Agent Skill、ComfyUI 節點、CLI 工具、Web 應用和 API 閘道,覆蓋了 Claude Code、Codex、ComfyUI 等主流工具鏈。
【此處插入GitHub 專案列表截圖:截圖目標:展示 Agnes 在開發者社群的真實採用;關鍵字:GitHub、Skill、開源;建議位置:網頁】
Agnes AI 官方公布的資料,首週 Agnes-2.0-Flash 呼叫量超過 1 兆 Token,Agnes-Image-2.1-Flash 首週生成超過 200 萬張圖片,Agnes-Video-2.0 首週生成超過 200 萬秒影片。
進入第二週,全模態總 Token 呼叫量達到 3.12T。文字模型貢獻約 1.9T,圖片與影片模型合計約 1.2T。圖片和影片的占比接近 40%,說明免費政策確實降低了開發者在視覺內容生成方面的試用門檻。之前需要算著成本來生成,現在可以大量嘗試不同的提示詞和參數組合,不用盯著餘額幹活。
【此處插入Agnes 呼叫資料統計圖:截圖目標:證明模型的真實呼叫規模;關鍵字:3.12T、呼叫量、Token;建議位置:網頁】
Agnes 的全模態佈局目前覆蓋文字、圖片、影片三條線,TTS(語音合成)能力預計本週也會灰度上線。到時候文字生成、圖片生成、影片生成、語音合成四種能力就齊了,一套 API Key 全部搞定。
對於做內容自動化的團隊來說,這意味著一條完整的生產線。Agent 寫腳本 → 生成配圖 → 生成影片 → 配上語音旁白,整個流程都可以在一個平台的 API 下完成。PaiAgent 的工作流編排正好適合串起這樣的多模態流水線。
兩週前還在糾結 API 帳單怎麼控制 現在文字、圖片、影片三條線全部免費,不限量 PaiAgent 工作流裡的每個節點都換上了 Agnes 的模型 跑了上百次測試,一分錢沒花
4K 圖片生成本週上線 1M 上下文本週上線 TTS 語音合成也快了
【一套 API Key 管文字圖片影片語音四條線,省下來的錢,夠我請團隊吃頓好的了。】