過去,在開源社群裡,想要提交第一個 PR 需要花費大量精力。現在,借助像 Claude Code 這樣的程式碼代理工具,你可以在一個週末就發布真正的成果。

但這同時也意味著噪音大幅增加。我之前也看到過 OpenClaw 程式碼庫的浪潮,但如今炒作和實際維護的比例已經大不相同了。

我幾乎每天都會探索新專案,這個習慣已經持續兩年多了。最近我深入研究了人工智慧代理領域,以下是我真正堅持下來的程式碼庫。

這些專案並非隨意挑選,而是我在實踐中遇到並參與其中一些專案的專案。內容涵蓋代理框架、前端技術堆疊、代理程式編碼工程技能、語音代理、瀏覽器自動化、電腦應用等等。如果你打算在 2026 年建立 AI 代理,這份清單絕對適合你。

如果你是開源新手,可以看看我之前寫的這篇免費指南。對於任何你考慮加入的專案,都要查看其是否有CONTRIBUTING.md文件以及活躍的社區氛圍。

讓我們開始吧。


類別

請記住,這篇文章中的內容沒有特定的順序。每個開源專案都有其自身的優點。


<a id="frontend-ui-layer-copilotkit"></a>

  1. 前端和 UI 層 - CopilotKit

CopilotKit是代理程式的前端技術堆疊。大多數代理技術堆疊只提供後端,而將使用者介面部分完全留給使用者自行開發。

CopilotKit 層提供了所有建置模組,包括聊天元件、鉤子、用於自訂代理介面的無頭 UI、持久線程、人機互動、共享狀態以及用於除錯的內建檢查器。

它們在一個執行時環境中支援所有三種生成式 UI 模式。簡而言之,它允許代理顯示元件,而不僅僅是描述它們(Google的 A2UI 就是一種模式)。

我最喜歡的是他們為編碼代理提供了一個MCP伺服器,允許編碼代理獲取即時文件,沒有任何使用限制。

只需幾行程式碼,即可直接連接到任何 LLM,無需後端任何代理框架,並使其能夠感知您的應用程式上下文。他們還支援與 13 個以上主流框架的第一方整合。

import {
  CopilotRuntime,
  copilotRuntimeNextJSAppRouterEndpoint,
} from "@copilotkit/runtime";
import { BuiltInAgent } from "@copilotkit/runtime/v2"; 
import { NextRequest } from "next/server";

const builtInAgent = new BuiltInAgent({ 
  model: "openai:gpt-5.5",
});

const runtime = new CopilotRuntime({
  agents: { default: builtInAgent }, 
});

export const POST = async (req: NextRequest) => {
  const { handleRequest } = copilotRuntimeNextJSAppRouterEndpoint({
    runtime,
    endpoint: "/api/copilotkit",
  });

  return handleRequest(req);
};

您可以啟用多模態附件,例如圖像、PDF、音頻、影片,並透過reasoningEffort來控制模型思考的難度。

副駕駛套件

這種與框架無關的設計使其非常實用。它基於AG-UI協議建置,AG-UI 是一種用於代理-用戶互動的開放式事件協議,目前已被 Google、AWS、Microsoft、LangChain 等眾多公司採用。因此,即使您切換任何框架或協議,前端的所有內容都將保持不變。

AG-UI

我最近在幾個專案中都用到了它,包括我用 LangChain Deep Agents 建置的求職助手,它幫助我了解了它在底層所做的一切。

CopilotKit 在 GitHub 上擁有 31.5k 個星標。

https://github.com/CopilotKit/CopilotKit Star CopilotKit ⭐️

替代方案

  • TanStack AI-由 TanStack 團隊開發的框架無關、廠商中立的 AI SDK。它提供強大的 TypeScript 支持,並針對每個提供者提供模組化適配器。它是 Vercel AI SDK 的直接替代方案,且無需與 Next.js 耦合。

  • Vercel AI SDK-適用於 Next.js 中的串流和工具呼叫。它無狀態且與 Vercel 生態系統緊密整合。

  • Tambo是一個專注於生成式 UI 的 React SDK。目前仍處於早期階段,尚未建置完整的客服聊天技術棧。

  • 助理 UI - 用於建立聊天 UI 的無頭 React 原語。

  • agent-native是 Builder.io 出品的框架,其中代理程式和 UI 共享同一個動作模型。只需定義一次動作,即可同時供兩者使用。無需單獨的代理 API-如果 UI 可以執行某個操作,代理程式也可以執行,反之亦然。


<a id="skills-plugins-agent-skills"></a>

  1. 技能和插件 - agent-skills

Anthropic公司推出了Skills模式,整個生態系統迅速發展。很多人甚至說MCP模式因為Skills模式而消亡(我並不這麼認為)。

技能本質上是一個目錄,其中包含一個 SKILL.md 文件,該文件包含組織有序的資料夾,其中包含指令、腳本和資源,這些指令、腳本和資源為代理提供額外的功能。

官方倉庫擁有 13.8 萬顆星,值得閱讀其工程博客,以了解漸進式披露在實踐中的運作方式。

Addy Osmani 的agent-skills堪稱精品。它包含 23 項生產級工程技能,以及 7 個斜杠指令,涵蓋完整的開發生命週期( /spec/plan/build/test/review/ship )。

嚴格的退出標準、反合理化表格、漸進式資訊揭露。這些都體現了Google的工程文化——海勒姆定律、碧昂絲法則、主幹開發。

它在GitHub上獲得了43.8k顆星。以下是所有包含的技能。

https://github.com/addyosmani/agent-skills 明星特工技能 ⭐️

agent-skills/
├── skills/                            # 23 skills (22 lifecycle + 1 meta)
│   ├── interview-me/                  #   Define
│   ├── idea-refine/                   #   Define
│   ├── spec-driven-development/       #   Define
│   ├── planning-and-task-breakdown/   #   Plan
│   ├── incremental-implementation/    #   Build
│   ├── context-engineering/           #   Build
│   ├── source-driven-development/     #   Build
│   ├── doubt-driven-development/      #   Build
│   ├── frontend-ui-engineering/       #   Build
│   ├── test-driven-development/       #   Build
│   ├── api-and-interface-design/      #   Build
│   ├── browser-testing-with-devtools/ #   Verify
│   ├── debugging-and-error-recovery/  #   Verify
│   ├── code-review-and-quality/       #   Review
│   ├── code-simplification/          #   Review
│   ├── security-and-hardening/        #   Review
│   ├── performance-optimization/      #   Review
│   ├── git-workflow-and-versioning/   #   Ship
│   ├── ci-cd-and-automation/          #   Ship
│   ├── deprecation-and-migration/     #   Ship
│   ├── documentation-and-adrs/        #   Ship
│   ├── shipping-and-launch/           #   Ship
│   └── using-agent-skills/            #   Meta: how to use this pack
├── agents/                            # 3 specialist personas
├── references/                        # 4 supplementary checklists
├── hooks/                             # Session lifecycle hooks
├── .claude/commands/                  # 7 slash commands (Claude Code)
├── .gemini/commands/                  # 7 slash commands (Gemini CLI)
└── docs/                              # Setup guides per tool

替代方案

  • skills.sh - 代理技能的 npm 包(市場)。使用npx skills add <owner/repo>安裝任何技能。排行榜展示的是開發者實際使用的技能,而不是發布當天被大肆宣傳的技能。

  • taste-skill-便攜式設計美學技能(極簡主義、粗獷主義、GPT 優化),可有效改善 AI 生成的千篇一律的粗糙作品。這是少數能顯著改變智能體生成作品的技能之一。我已經使用它幾個月了。

  • Repomix-將整個程式庫打包成一個AI友善的檔案。您可以根據需要選擇何時讓代理一次查看整個程式碼庫。


<a id="computer-use-ui-tars-desktop"></a>

  1. 電腦使用 - UI-TARS 桌面

大多數電腦應用代理程式會截取螢幕截圖,然後讓通用虛擬語言模型(VLM)猜測像素座標。 UI -TARS經過端到端的 GUI 基礎訓練——它將 UI 元素理解為一等概念,而不僅僅是可點擊的圖像區域。

我發現真正有趣的是「系統 2 反思」——每次操作後,它都會比較操作前後的螢幕截圖,如果出現問題,它會產生糾正計劃,而不是簡單地執行出錯的序列。

計算機使用

計算機使用

它在 OSWorld 和 Claude Computer Use 上的得分更高。就我個人而言,我認為實際使用體驗遠比跑分重要得多。 😅

他們還提供Agent TARS——一個 CLI 和 Web UI,它將相同的願景以及 MCP 工具整合帶到您的終端和瀏覽器中。

你可以這麼說:請幫我在 Priceline 上預訂 9 月 1 日從聖荷西飛往紐約的最早航班和 9 月 6 日的最後一班回程航班。所有範例都在自述文件中。

它在 GitHub 上獲得了 34k 個星標。

https://github.com/bytedance/UI-TARS-desktop 為 UI-TARS Desktop 讚 ⭐️

我發現了一個非常有趣的倉庫,叫做Sutando 。它是一個適用於 macOS 的個人 AI 代理,可以在你的 Claude Code 訂閱上執行,額外費用極低。

它的應用場景非常廣泛。你可以說“加入我下午2點的通話”,它就會讀取你的日曆,通過桌面應用加入Zoom會議,或者通過瀏覽器加入Google Meet會議,截屏辨識參會人員,在有人提問時進行實時搜尋,並在通話結束後為你生成一份總結報告。

或者你可以用手機呼叫它,說「召喚」——它會打開 Zoom 並共享螢幕,你可以一邊走動一邊用語音控制你的電腦。

蘇坦多

蘇坦多

當你不給它分配任務時,Sutando 會執行一個自主建置循環——它會監控自身的健康狀況,檢測你的工作方式模式,發現新技能,並建置缺少的功能,這簡直太瘋狂了。

它在Github上有300多個星標,但它確實很有趣。

替代方案

  • Midscene-同樣來自位元組跳動Web基礎設施團隊。它透過一個API,即可實現跨Web、Android和iOS的視覺驅動UI自動化。 Midscene與Playwright和Puppeteer集成,並提供Chrome擴充程式、CLI和MCP伺服器。

  • Agent-S是一種分層規劃方法,它基於過往互動建立知識庫,並利用該知識庫規劃未來的任務。在 OSWorld 和 WindowsAgentArena 基準測試中表現良好。

  • Bytebot-一個執行在容器化Linux環境下的自架AI桌面代理程式。該代理程式擁有完整的虛擬桌面——瀏覽器、檔案系統、密碼管理器以及任何應用程式。執行docker-compose up即可啟動。

  • cua - macOS/Linux VM 沙箱,使代理程式在虛擬機器上執行,而不是在您的真實機器上執行。

  • OpenHands-功能齊全的開發者環境,可以瀏覽網頁、編寫程式碼、執行測試和提交 PR。在「編碼代理」部分會再次介紹。


<a id="agent-orchestration-langgraph"></a>

  1. 代理編排 - LangGraph

LangGraph是基於 LangChain 建構的有狀態圖執行環境。它是建置、管理和部署長時間執行的有狀態代理的最成熟的框架。

循環是一個圖。每一步都是一個節點。狀態是類型化的,並設有檢查點。你可以在任何節點暫停,將整個狀態序列化到磁碟,幾天後在另一台機器上繼續執行。

他們還提供Deep Agents——一個基於 LangGraph 的編碼代理框架,具有規劃、檔案系統工具、子代理程式和上下文壓縮功能,如果您想跳過自己編寫圖,可以使用它。

將其與 LangSmith Engine、LangChain、Deep Agents 等其他產品結合使用,開發者就能獲得一套完整的代理建置工具。而且它在除錯方面也超實用。

如果你感到困惑,這裡有一個簡單的區別:

  • LangChain-透過鍊式呼叫和create_agent代理程式。簡單易上手,但狀態的控制較少。它是所有其他功能的基礎。如果進程終止,代理程式會重新啟動。

  • LangGraph 是一個基於 LangChain 建構的有狀態圖執行時環境。您可以從任何檢查點重播錯誤訊息,以偵錯問題所在。

  • Deep Agents - 基於 LangGraph 建置的工具。

LangGraph 在 GitHub 上擁有 32.3k 個星標。

https://github.com/langchain-ai/langgraph Star LangGraph ⭐️

LangGraph

替代方案

  • Agno為需要持久記憶體和多模態輸入的代理提供輕量級支援。它自帶 AgentOS,這是一個預先建置的 FastAPI 伺服器,支援會話、串流、基於角色的存取控制 (RBAC) 和可觀測性。據稱其實例化速度比 LangGraph 快 529 倍。

  • Mastra——一款以 TypeScript 為核心,並內建 RAG(紅黃綠燈)、可觀測性、MCP(多層協作)和工作流程的框架。如果你的團隊主要使用 JS/TS 而不是 Python,那麼 Mastra 是你的最佳選擇。

  • Pydantic AI ——Pydantic 團隊開發的類型安全的智慧體框架。無需自行編寫驗證器,即可獲得經過驗證的結構化輸出。

  • Google ADK—谷歌官方的代理開發工具包,原生整合了 Vertex AI。如果您在 Google Cloud 上建立應用,請選擇它。

  • PocketFlow-一個僅有100行程式碼的LLM框架。真正做到了極簡。當LangGraph的架構過於龐大時,不妨選擇它。


<a id="coding-agent-harness-deep-agents"></a>

  1. 編碼代理工具 - 深度代理

代理程序是指模型周圍使其成為代理人的一切要素-工具、狀態、規劃、記憶、回饋迴路、防護措施。

你可以說:「代理人 = 模型 + 框架」。 LangChain 證明了這一點比大多數團隊預想的更重要:僅框架層的更改就使同一個模型在 Terminal Bench 2.0 上的準確率從 52.8% 提升到 66.5%,排名從前 30 名躍升至前 5 名。模型本身沒有做任何更改。

Deep Agents是 LangChain 基於 LangGraph 建構的整合式框架,內建規劃、檔案系統工具、子代理程式和情境壓縮功能。

User goal
  ↓
Deep Agent (LangGraph StateGraph)
  ├─ Plan: write_todos → updates "todos" in state
  ├─ Delegate: task(...) → runs a subagent with its own tool loop
  ├─ Context: ls/read_file/write_file/edit_file → persists working notes/artifacts
  ↓
Final answer

長時間執行的代理程式的核心問題是,它們會不斷累積工具呼叫結果,直到上下文視窗被填滿——這會導致上下文污染、分心和混亂。

他們的解決方法:

  • 大型工具的輸出會寫入虛擬檔案系統,而不是提示字元。

  • 技能啟動時僅載入前言,完整內容按需載入。

  • 隨著會話時間的增加,對話歷史記錄會被壓縮。

  • 子代理程式在各自的上下文視窗中執行,主代理只能取得最終結果。

你可以圍繞它建立很多東西,例如深度研究助手

深度研究助理

Deep Agents 在 GitHub 上擁有 23.1k 個星標。

https://github.com/langchain-ai/deepagents 為 Deep Agents 讚 ⭐️

替代方案

  • Hive-以結果為導向的智能體發展框架。智能體根據其是否真正達成目標而進化,而不僅僅是根據其是否完成了步驟。

  • Browser Harness——來自 Browser Use 團隊。這款自癒式 Harness 賦予 LLM 最大程度的自由度——它無需像傳統框架那樣用數千行啟發式程式碼封裝 Chrome,而是讓 LLM 直接使用 CDP,並在需要時加入自己的工具。這與大多數瀏覽器框架的概念截然不同。

  • Archon是一款開源的 AI 編碼框架建構工具。只要描述您的需求,它就能為您產生一個確定性的、可重複使用的智慧體框架。


<a id="open-source-coding-agents-opencode"></a>

  1. 開源編碼代理程式 - OpenCode

我曾廣泛使用 Claude Code 和 Codex。兩者都很出色,但都局限於各自的生態系統。

OpenCode是開源替代方案——終端原生、支援 75 多個供應商、整合 LSP、多會話(在同一專案上並行執行多個代理程式)、隱私優先。

它的獨特之處在於:從一開始就真正做到了與供應商無關。您可以在同一會話中切換 Claude、Gemini、GPT-5 和本機模型,而無需重新配置任何內容。大多數其他編碼代理在預設設定中都配置了首選模型。

你也可以分享任何會話的連結以供參考或除錯。它提供終端介面、桌面應用程式和 IDE 擴充三種形式——不過我只用過終端。

OpenCode 在 GitHub 上擁有 16.2 萬顆星。

https://github.com/sst/opencode 為 OpenCode 讚 ⭐️

開放程式碼

替代方案

  • Codex(OpenAI) ——OpenAI 的官方終端編碼代理。選擇它,即可獲得第一方支援和最簡潔的 GPT-5 整合。

  • Gemini CLI是Google官方的終端代理,擁有 100 萬個令牌上下文。其免費套餐在實驗方面堪稱完美。

  • Cline是一款 VS Code 擴展,支援逐步批准。您可以選擇使用 IDE 原生控製而非終端。

  • Aider-一款基於 Git 的終端結對程式設計工具。 Aider 自身 70% 以上的程式碼都由 Aider 編寫。速度快,且與模型無關。

  • OpenHands-功能齊全的代理開發環境,可瀏覽網頁、執行 shell 腳本和提交 PR。比其他工具更佔資源。

  • Goose - Block 的可擴展編碼代理,具有一流的 MCP 和清晰的擴展模型。


<a id="browser-automation-browser-use"></a>

  1. 瀏覽器自動化 - 瀏覽器使用

瀏覽器使用功能為您的代理程式提供了一個瀏覽器。只需指向一個 URL,描述您想要執行的操作,它就會點擊、輸入和導航。您編寫的是意圖,而不是選擇器——代理程式會讀取 DOM 並自行計算互動。

LLM 優先設計意味著你描述的是意圖,而不是選擇器,代理人會自行決定 DOM。

它們之所以如此優秀,是因為它們專門為瀏覽器任務建立了專用的LLM模型。它們的bu-ultra模型在Mind2Web的得分為97%,而claude-opus-4-6的得分為62%。

瀏覽器使用

這個開源庫適用於任何模型,但基準測試使用的是他們自訂的模型。

他們還有一個桌面應用程式,可以直接控製本地 Chrome 瀏覽器,以及Browser Use Box——一個全天候的 Claude Code 代理,您可以將其部署在任何 5 美元的 VPS 上,並通過 Telegram 進行控制。

# pip install browser-use-sdk

from browser_use_sdk.v3 import AsyncBrowserUse

client = AsyncBrowserUse()

result = await client.run(
  "Go to amazon.com, extract 200 products with name, price and reviews, save to products.csv"

它在 GitHub 上獲得了 94k 個星標。

https://github.com/browser-use/browser-use 讚 Browser Use ⭐️

替代方案

  • 舞台助理-四個基本要素: actextractobserveagent 。需要時提供確定性的逐步控制,不需要時則可自主執行。自癒能力-「點擊提交」操作不會因頁面重新設計而失效,因為它由 AI 在執行時解析,而不是使用硬編碼的選擇器。

  • Playwright MCP - 微軟的 MCP 伺服器,封裝了 Playwright。如果您已經編寫了 Playwright 測試,並希望您的代理程式使用相同的瀏覽器,請選擇此專案。

  • Skyvern-利用大量智慧體和電腦視覺技術來處理從未造訪過的網站。它不使用 XPath 或選擇器,而是即時將視覺元素映射到相應的操作。此外,它還提供了一個無需編寫程式碼的工作流程建構器。

  • Scrapling-一款自適應爬蟲,能夠應付選擇器漂移。開箱即用,可繞過 Cloudflare Turnstile 等反機器人系統。支援並發多會話爬取,並自動輪換代理。


<a id="web-scraping-ingestion-firecrawl"></a>

  1. 網路抓取與資料攝取 - Firecrawl

代理商需要不斷地從網路上取得內容——研究、監控、競爭情報、RAG管道。

大多數爬蟲會傳回原始 HTML,其中包含導覽選單、廣告和 cookie 橫幅,這些都會消耗令牌並擾亂模型。

Firecrawl可以將任何網站轉換為簡潔的、可直接用於 LLM 的 Markdown 或結構化的 JSON。它提供三個核心接口,涵蓋所有方面:

  • /search用於搜尋已擷取內容的網路搜尋結果

  • /scrape取得完整頁面 Markdown

  • /extract結構化 JSON。

他們還有一個/agent接口,您只需用自然語言描述您的需求,它就能自動跨多個網站進行搜尋、導航和提取。無需提供 URL。

import Firecrawl from '@mendable/firecrawl-js';
import { z } from 'zod';

const firecrawl = new Firecrawl({ 
  apiKey: 'fc-YOUR-API-KEY' 
});

const schema = z.object({
  companies: z.array(z.object({
    name: z.string(),
    founders: z.array(z.string()),
    funding: z.string().optional(),
    website: z.string()
  }))
});

const result = await firecrawl.agent({
  prompt: 'Get all YC W24 companies',
  schema: schema
});

火行

他們的FIRE-1 導航代理(測試版)能夠自主瀏覽複雜的網站,進行點擊、捲動、填寫表單等操作,並在提取資料前處理多步驟流程。登入或分頁後的頁面不再是障礙。

還有更多內容,歡迎探索。它在GitHub上擁有12.2萬顆星。

https://github.com/mendableai/firecrawl 星級 Firecrawl ⭐️

替代方案

  • Gitingest - 將任何 GitHub URL 中的“hub”替換為“ingest”,即可獲得程式碼庫的快速摘要。支援按檔案大小篩選、包含/排除特定路徑,並且也支援私有倉庫。

  • Crawl4AI-開源、可自行託管,無需API金鑰。專為RAG管線建構-支援LLM感知分塊、BM25內容過濾、全站抓取並可控制抓取深度。您可以根據需要選擇何時啟用完全控制功能,無需按請求付費。

  • Jina Reader - 在任何 URL 前加入r.jina.ai/即可獲得簡潔的 Markdown 格式。無需任何設置,無需 SDK。適用於快速的單次頁面轉換或原型設計,無需任何配置。

  • ScrapeGraphAI-提示驅動型網路爬蟲。用自然語言描述你想要提取的內容,它會自動建立爬蟲工作流程。選擇何時需要提取結構化的 JSON 資料,而不僅僅是 Markdown 格式。


<a id="multi-agent-frameworks-crewai"></a>

  1. 多智能體框架 - CrewAI

CrewAI是目前應用最廣泛的多智能體架構。您只需定義一組具有特定角色、目標和工具的智能體,CrewAI就會負責處理它們如何合作完成任務。

基於角色的模型(專案經理、研究員、工程師)很直觀,因為它與你實際如何在人們之間分配工作相對應。

它是進入多智能體系統最簡單的入口。文件齊全,社區龐大,幾乎所有方面都有範例。

權衡之處在於控制——代理之間的通訊是透過任務輸出而不是直接訊息傳遞來進行的,而且對於長時間執行的工作流程,沒有內建的檢查點機制。

CrewAI Flows(一種較新的事件驅動模式)針對可預測的流程解決了部分問題。對於具有回饋迴路的循環工作流程,大多數團隊最終會將部分功能遷移到 LangGraph。

CrewAI 在 GitHub 上有 51.6k 個星標。

https://github.com/crewAIInc/crewAI 為 CrewAI 讚 ⭐️

船員

替代方案

  • AG2是 AutoGen 的社群分支(微軟已將 AutoGen 轉為維護模式)。它包含可對話的智能體,可以在群組聊天、叢集和嵌套聊天中進行交流。更適合研究和自訂通訊模式。

  • Microsoft Agent Framework -AutoGen 的企業級繼任者。它擁有穩定的 API、長期支持,並內建 A2A 和 MCP 功能。您可以根據自身需求選擇合適的長期支援方案。

  • OWL-基於CAMEL的多智能體自動化框架。它採用規劃智能體+執行智能體模型,用於處理長期實際任務。在GAIA基準測試中,OWL在開源框架中排名第一。

  • MetaGPT-模擬一家軟體公司,包含專案經理、架構師和工程師等角色。最適合用於程式碼產生流程。

  • AgentScope-阿里巴巴的開發框架,內建即時語音、MCP、A2A和OTel功能。


<a id="document-processing-docling"></a>

  1. 文件處理 - 文件化

將 PDF 文件交給代理程序,卻發現它漏掉了表格中明明存在的訊息,這令人沮喪。大多數解析器提取的是原始文本,丟失了文本結構——表格被扁平化,多列佈局被壓縮,公式變得難以閱讀。

Docling是 IBM 研究院的文件轉換引擎,現已捐贈給 Linux 基金會。它使用 Granite-Docling-258M——一種專為文件轉換而建置的參數化視覺語言模型,其性能可與規模大數倍的系統相媲美。

輸出使用DocTags ,這是一種 IBM 研究院開發的通用標記格式,它能捕捉每個頁面元素及其類型、位置和閱讀順序,而不僅僅是 Markdown。這使得下游的 RAG 演算法更加準確。

紅帽公司稱之為「排名第一的文件智慧開源倉庫」。分享一下,沒什麼特別的原因😅

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # file path or URL
converter = DocumentConverter()
doc = converter.convert(source).document

print(doc.export_to_markdown())  # output: "### Docling Technical Report[...]"

Docling 在 GitHub 上擁有 60.1k 個星標。

https://github.com/docling-project/docling 為 Docling 讚 ⭐️

替代方案

  • LlamaIndex-功能齊全的 RAG 框架,擁有 160 多個資料連接器。當您需要跨多個資料來源進行流程編排時,LlamaIndex 是您的理想之選,而不僅僅是文件解析。

  • MinerU-一款具備最先進的表格與公式擷取功能的PDF解析器。是處理以數學公式和方程式為主的技術或科學文件的理想選擇。

  • RAGFlow ——DeepDoc 管線,可端對端處理解析、分塊和檢索。您可以選擇何時使用完整的 RAG 技術堆疊,而不僅僅是解析器。

  • Marker是一款高保真度的 PDF、EPUB、PPTX 轉 Markdown 工具。速度比 Docling 更快,GPU 要求更低。是大量輸出清晰純文字檔案的理想之選。

  • PaddleOCR ——MinerU、RAGFlow 和 OmniParser 的底層 OCR 引擎。支援 100 多種語言,並提供瀏覽器 SDK。當您需要直接使用強大的 OCR 功能時,PaddleOCR 是您的理想之選。

  • 非結構化-支援 65 種以上的文件格式,包括電子郵件、電子表格和圖像。適用於不僅限於 PDF 的混合輸入流程。


<a id="voice-agents-pipecat"></a>

  1. 語音代理 - Pipecat

建構語音代理仍然比想像中更難。在我看來,人工智慧部分基本上已經解決。困難在於它周圍的一切,例如中斷處理、傳輸以及跨語音合成/語言記憶/文字轉語音邊界的延遲預算。

Pipecat是 Daily 開發的 Python 框架,用於即時語音和多模態 AI 代理。 STT、LLM 和 TTS 是可組合的幀處理器,類似於 Unix 管道,但專門用於語音處理。

我選擇它的原因是:你可以隨意替換任何語音轉文字(STT)、語音合成模型(LLM)或文字轉語音(TTS)元件,而無需重寫管道。大多數開發者都不希望被單一供應商鎖定,尤其是在語音模型品質仍在快速變化的情況下。

Silero VAD(語音活動偵測)在框架層級處理中斷 - 回應過程中的語音活動會停止音訊並自動重新啟用 LLM。

Pipecat Flows 接著新增預先定義的對話路徑和動態轉換,讓客服人員在通話過程中保持專注,不會偏離腳本。

import {
  PipecatAppBase,
  ConnectButton,
  UserAudioControl,
} from "@pipecat-ai/voice-ui-kit";

<PipecatAppBase
  transportType="smallwebrtc"
  connectParams={{ webrtcUrl: "/api/offer" }}
>
  <div>
    <ConnectButton />
    <UserAudioControl />
  </div>
</PipecatAppBase>

您可以造訪網站並親自體驗。如您所見,我詢問了“如何將其整合到我的應用程式中”,它不僅打開了程式碼面板,還給了我詳細的解釋。

pipecat

程式碼面板有很多(安裝、管線、最終實作)。讓我驚訝的是,它能夠檢測到我停止程式時修改過程式碼,這使得它能夠感知應用程式的上下文。

pipecat

它獲得了12000顆星。

https://github.com/pipecat-ai/pipecat 明星 Pipecat ⭐️

前幾天我參與了一個專案,客服人員會根據通話內容自動產生相應的表單,而且效果不錯。通常來說,僅憑語音很難收集到足夠的資料。

語音生成式使用者介面

替代方案

  • LiveKit Agents ——OpenAI(ChatGPT Voice)和 Meta 所依賴的 WebRTC 技術堆疊。它採用房間優先而非管道優先的架構——您的代理商以參與者的身份加入對話。支援原生電話功能、語意輪次偵測和 MCP。您可以根據需要選擇是否需要將生產基礎設施與框架捆綁在一起。

  • fish-speech-最先進的開放式文字轉語音技術,支援多語言零樣本語音複製。當輸出品質比編排更重要時,它是理想之選。

  • Moonshine-延遲極低的裝置端語音轉文字 (STT)。當延遲是限制因素且雲端服務不可行時,請選擇它。

  • Whisper ——OpenAI 的語音轉錄模型。自訂語音堆疊的預設轉錄層。

  • GPT-SoVITS-僅需1分鐘音訊即可進行少量樣本語音克隆,或僅需5秒音訊即可進行零樣本語音克隆。支援中文、英文、日文和韓文。是訓練資料量極少的克隆語音文字轉語音(TTS)應用的理想選擇。

  • CosyVoice-阿里巴巴推出的多語言零延遲語音生成技術,延遲僅150毫秒。是追求非英語語音品質使用者的理想選擇。


<a id="visual-builders-langflow"></a>

  1. 可視化建構器 - Langflow

Langflow是一款由 IBM 支援的拖放式代理管道建構器。它可以連接到任何 LLM、任何向量資料庫和任何工具。

首席技術官是這樣說的:“Langflow 本質上是一個 API 設計器。流程會變成一個端點,你可以從任何地方呼叫它。”

它的獨特之處在於:整個流程會變成一個可呼叫的 REST 端點。您可以先進行視覺化原型設計,然後您的工程師可以從任何程式碼庫中呼叫它作為 API。

每個元件都公開了它的 Python 類,因此您可以在不離開工具的情況下使用自訂邏輯進行擴充。

您可以找到許多預置模板來快速上手。這裡有一個供應鏈風險監控工作流程,它透過將供應商和路線資料與即時新聞訊號關聯起來,來評估中斷風險。

朗福斯

它在 GitHub 上獲得了 14.9 萬顆星。

https://github.com/langflow-ai/langflow 明星 Langflow ⭐️

替代方案

  • Dify是一個 LLM 應用平台,配備視覺化代理程式建構器、RAG 流程和外掛程式市場。您可以選擇更精緻的使用者介面和內建應用框架。

  • Sim-一款拖放式代理編排工具,目前正處於積極開發階段。它是目前最簡潔的 2026 原生 Langflow 替代方案。

  • n8n-擁有400多個整合和強大的AI節點的自動化工作流程解決方案。尤其適用於以代理商為中心的跨服務自動化工作流程。

  • Flowise-更簡單的無程式碼 LangChain 建構器。適合需要建立代理工作流程而無需編寫程式碼的非技術使用者。

  • Coze Studio-位元組跳動的開源視覺化代理平台。代理建置器支援紅黃綠藍寶石(RAG)和插件,工作流引擎支援循環和自訂Python執行。


<a id="mcp-tool-integration-composio"></a>

  1. MCP 和工具整合 - Composio

MCP 伺服器解決了代理程式如何連接到工具的問題。但是,管理 OAuth、令牌刷新以及維護 1000 多個整合仍然需要您解決。

Composio是您的代理商與具有託管身份驗證的現實世界工具之間的整合層。

我最喜歡的部分是工具路由——一個MCP端點,它能根據代理的意圖動態發現並載入合適的工具。它不會預先載入所有工具導致上下文資訊臃腫,而是只顯示相關的工具。

組合

他們在 GitHub 上獲得了 28.4k 個星標。

https://github.com/ComposioHQ/composio 明星作曲 ⭐️

替代方案

  • LiteLLM - 一個統一的 API,支援 100 多個 LLM 提供者。 Azure、Bedrock 和 Anthropic 對您的程式碼來說都像 OpenAI 一樣。成本追蹤、路由、回退。選擇模型網關層。

  • MindsDB-透過單一介面即可使用 SQL 存取 200 多個資料來源,無需 ETL。同時也支援 MCP 伺服器。您可以自行選擇代理何時需要讀取資料,而不是何時執行操作。

  • ACI-透過統一的MCP伺服器整合600多種工具。可作為自架的Composio替代方案。

  • Portkey AI 閘道- 1600 多種型號,內建安全防護措施。適用於對網關延遲要求較高的情況。


<a id="sandboxing-code-execution-e2b"></a>

  1. 沙箱和程式碼執行 - E2B

當代理程式產生並執行程式碼時,這些程式碼需要一個安全的地方來執行。普通的 Docker 容器共享宿主機核心——一旦出現漏洞,不受信任的程式碼就會洩漏出去。

E2B提供隔離的沙箱環境,使代理程式能夠安全地執行程式碼、處理資料和執行工具。他們的 SDK 讓啟動和管理這些環境變得輕鬆便捷。

它在 Firecracker 微型虛擬機器中執行代理程式生成的程式碼——每個沙箱都有自己獨立的核心。啟動時間約 150 毫秒,預先安裝了完整的 Linux 檔案系統、Python、Node 和常用軟體包。

import { Sandbox } from 'e2b'

const sandbox = await Sandbox.create() // Needs E2B_API_KEY environment variable
const result = await sandbox.commands.run('echo "Hello from E2B Sandbox!"')
console.log(result.stdout)

所有程式都不會直接操作主機。 Manus 用它來執行 27 種不同的工具。 Perplexity 用它來進行資料分析。 Hugging Face 用它來復現 DeepSeek-R1。

你可以查看他們的 cookbook 倉庫中的一些範例,以了解如何使用所有這些功能。

e2b 食譜

它在 GitHub 上獲得了 12k 個星標。

https://github.com/e2b-dev/E2B 為 E2B 讚 ⭐️

替代方案

  • OpenSandbox是阿里巴巴的內部沙箱基礎設施,涵蓋編碼代理、GUI 代理、瀏覽器自動化、VNC 桌面和強化學習訓練,所有功能均可透過一個 API 實現。它支援 Docker 和 Kubernetes 執行時環境,功能範圍比 E2B 更廣。

  • Daytona-啟動速度僅需約90毫秒,開源,提供持久化環境,並整合了Git和LSP。當您需要跨會話持久化的狀態時,Daytona是您的理想選擇。

  • 微型沙箱-本地可程式沙箱。您可以選擇在開發機器上執行沙箱,而無需依賴雲端。

  • Firecracker ——E2B、Lambda 和 Fargate 底層的微型虛擬機器技術。在需要完全控制原始虛擬機器層時,可以選擇它。


<a id="agent-memory-mem0"></a>

  1. 代理記憶體 - mem0

記憶力是大多數智能體演示在實際生產環境中失敗的關鍵。智能體在上一次會話中記住了某些訊息,下一次就忘記了。我們可不想智能體在關閉標籤頁後就「死亡」哈哈。

mem0是目前應用最廣泛的獨立記憶層。它不儲存原始對話片段,而是執行一個提取階段,辨識關鍵資訊並將其提煉成簡潔的自然語言記憶。它透過一個介面即可處理短期記憶、長期記憶和實體記憶。

# Add a memory
messages = [
    {"role": "user", "content": "I'm a vegetarian and allergic to nuts."},
    {"role": "assistant", "content": "Got it! I'll remember your dietary preferences."},
]
client.add(messages, user_id="user123")

# Search memories
results = client.search(
    "What are my dietary restrictions?",
    user_id="user123",
)
# print(results)

大多數主流框架都以這樣的方式建立記憶體:LangGraph 內建了檢查點(每個執行緒的狀態持久化、時間旅行、崩潰復原),而 CopilotKit 透過useThreads實現了持久線程。

值得注意的差距:Mem0 在 LongMemEval 上的得分為 49%,而 Zep 的得分為 63.8%——這種差異源於時間推理。

對於個性化記憶而言,它是務實的選擇。但對於需要推理事實隨時間變化的智能體來說,Graphiti 是更好的選擇。

它在 GitHub 上獲得了 55k 個星標。

https://github.com/mem0ai/mem0 為 Mem0 讚 ⭐️

替代方案

  • Graphiti ——Zep 的時間知識圖譜引擎。它儲存帶有有效期的事實——不僅包括發生了什麼,還包括何時發生以及是否仍然屬實。

  • Letta(原名 MemGPT) ——執行時內建於系統提示符號中的記憶體。代理程式自行決定保留哪些資訊-並非事後檢索,而是將其推理過程內建其中。

  • Supermemory是一款跨代理程式的記憶體 API,具有 OpenCode、OpenClaw 和 Claude Code 的插件。只需輸入“記住此專案使用了 Bun”,它就會自動儲存。下次會話時,上下文會自動顯示。

  • Cognee-確定性知識圖譜儲存管道。適用於大型語料庫的結構化儲存。


<a id="testing-evaluation-deepeval"></a>

  1. 測驗與評估 - DeepEval

大多數團隊完全忽略評估,直到生產環境出現問題。到那時,除錯就完全是盲目了──根本不知道問題出在提示符號、檢索、模型,還是三者都有問題。

DeepEval將 eval 整合到您的測試套件中。您可以像編寫單元測試一樣編寫斷言,在持續整合 (CI) 環境中執行它們,並在產品發布前捕獲回歸問題。

涵蓋 50 多個指標,包括 RAG(紅綠燈)、智能體、工具使用、多輪對話和安全性。其中,與智能體相關的指標最為實用,例如:任務完成率、論證正確性、工具正確性和步驟效率。此外,它還能產生難以手動收集的極端情況的合成資料集。

深谷

它在 GitHub 上獲得了 15.6k 個星標。

https://github.com/confident-ai/deepeval 為 DeepEval 讚 ⭐️

替代方案

  • promptfoo-一款集命令列評估和紅隊演練於一體的工具。適用於對抗性測驗與準確率指標同等重要的場合。

  • Phoenix——來自 Arize AI 的 OTel 原生追蹤和評估工具。自動整合 LangChain、LlamaIndex、Mastra 和 Vercel AI SDK。如果您已在使用 OTel 並希望在一個工具中完成追蹤和評估,請選擇 Phoenix。

  • Opik ——Comet的開放式評估與追蹤平台。您可以根據需要選擇何時同時進行評估和可觀測性分析。

  • MLflow-現在除了機器學習生命週期工具外,還具備完整的機器學習生命週期管理和代理評估功能。如果您的團隊已經在使用 MLflow 進行傳統機器學習,請選擇此功能。

  • garak ——NVIDIA 的 LLM 漏洞掃描器。在其他人之前探測您的代理是否有弱點。

  • AI基礎設施衛兵-騰訊的紅隊演練平台。可掃描MCP伺服器、代理技能和AI基礎設施。您可以選擇在部署前何時發現漏洞。


<a id="monitoring-observability-langfuse"></a>

  1. 監控與可觀測性 - Langfuse

大多數團隊都是在使用者回報問題後才發現代理程式故障。到那時,除錯起來就像是在除錯一個黑盒子——完全無法追蹤代理程式執行了哪些操作、操作順序以及哪裡出了問題。

Langfuse是事實上的開源 LLM 可觀測性堆疊。它將追蹤、評估、提示版本控制和成本追蹤整合在一個可自託管的軟體包中。

追蹤資訊準確地顯示了代理執行了哪些操作,延遲是多少,成本是多少。這使得除錯多步驟代理變得更加容易。

朗福斯

它在 GitHub 上獲得了 27.6k 個星標。

https://github.com/langfuse/langfuse 讚 Langfuse ⭐️

替代方案

  • Opik ——Comet的追蹤、評估與儀錶板工具。它是Langfuse的同類產品,並且擁有Comet的機器學習血統,因此是理想之選。

  • TensorZero-集網關、可觀測性和優化於一體的工具。只需一台設備即可完成所有操作,無需三台設備。

  • Logfire ——Pydantic 團隊開發的 OTel 原生 LLM 可觀測性解決方案。與 Python 和 Pydantic-AI 智能體完美相容。

  • OpenLLMetry - OTel 的 LLM 應用偵測程式庫。您可以選擇何時將代理追蹤資料匯入現有的 Grafana 或 Datadog 後端。


關於代理協議的簡要說明

現代代理協定棧由三種協定構成。了解它們之間的差異非常重要:

  • MCP(模型上下文協定) ——智能體到工具的互動。 Anthropologie 的標準,現在由 Linux 基金會擁有,已被 OpenAI、Google 和 Microsoft 採用。 GitHub

  • A2A(Agent-to-Agent) -代理之間的通訊。谷歌用於代理間通訊的協定。 GitHub

  • AG-UI——代理到用戶。這是由 CopilotKit 發起的用於代理與用戶互動的開放式事件協議,目前已被 Google、AWS、Microsoft、LangChain 和 Mastra 等公司採用。 GitHub


額外資源

1)十二因素智能體-Dex Horthy 提出的交付真正能在生產環境中運作的 LLM 軟體的原則。其核心觀點是:大多數成功的 AI 產品並非自主智能體——它們大多是確定性程式碼,只是在適當的位置放置了 LLM 步驟。這是我最喜歡的開源專案之一。

2)生成式智能體-史丹佛大學模擬論文的程式碼。 25個智能體在一個類似《模擬市民》的沙盒環境中,它們會醒來、建立關係、規劃日程並記住過去的互動。這是多智能體模擬中記憶、反思和規劃機制運作方式的經典參考。

3)針對初學者的 AI 代理(微軟) ——微軟提供的 12 堂結構化課程。如果您想要一個有指導的學習路徑而不是自己拼湊知識,請選擇此課程。

4) HuggingFace Agents 課程-更著重於模型和工具使用基礎知識。更適合從模型方面轉入 Agents 的機器學習從業人員。

5) Roadmap.sh AI Agents - 一張視覺化地圖,展示了您在 2026 年建立智能體所需了解的一切。如果您想在深入研究之前了解全貌,這是一個很好的起點。


呼!這篇文章寫了很久,但我很享受寫作的每一部分。

這份清單是基於我的個人觀點以及我在開源社群中實際觀察到的應用。如果您認為我遺漏了什麼值得一提的專案,請在評論區留言。

說到這裡,讓我們來看看2026年多智能體協作的實際樣子😅

多智能體協作

祝你今天過得愉快!下次見 :)

請在GitHubTwitterLinkedIn上與我聯絡。

感謝閱讀!

結尾的GIF動畫是揮手道別。


原文出處:https://dev.to/anmolbaranwal/open-source-toolkit-for-building-ai-agents-in-2026-55h1


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝17   💬11   ❤️1
590
🥈
alicec
📝1   ❤️2
81
🥉
我愛JS
💬2  
7
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
📢 贊助商廣告 · 我要刊登