小編精選 - 技術文章翻譯 · 05月22日

2026 年用於打造 AI Agent 的開源工具包

過去，在開源社群裡，想要提交第一個 PR 需要花費大量精力。現在，借助像 Claude Code 這樣的程式碼代理工具，你可以在一個週末就發布真正的成果。

但這同時也意味著噪音大幅增加。我之前也看到過 OpenClaw 程式碼庫的浪潮，但如今炒作和實際維護的比例已經大不相同了。

我幾乎每天都會探索新專案，這個習慣已經持續兩年多了。最近我深入研究了人工智慧代理領域，以下是我真正堅持下來的程式碼庫。

這些專案並非隨意挑選，而是我在實踐中遇到並參與其中一些專案的專案。內容涵蓋代理框架、前端技術堆疊、代理程式編碼工程技能、語音代理、瀏覽器自動化、電腦應用等等。如果你打算在 2026 年建立 AI 代理，這份清單絕對適合你。

如果你是開源新手，可以看看我之前寫的這篇免費指南。對於任何你考慮加入的專案，都要查看其是否有CONTRIBUTING.md文件以及活躍的社區氛圍。

讓我們開始吧。

類別

前端及使用者介面層（6）
技能與插件（4）
計算機使用（6）
代理編排（6）
編碼代理框架（4）
開源編碼代理（7）
瀏覽器自動化（5）
網路抓取與資料攝取（5）
多智能體框架（6）
文件處理（7）
語音代理（7）
可視化建構器（6）
MCP 和工具整合(5)
沙箱和程式碼執行（5）
代理記憶（5）
測驗與評估（7）
監測與可觀測性（5）

請記住，這篇文章中的內容沒有特定的順序。每個開源專案都有其自身的優點。

前端和 UI 層 - CopilotKit

CopilotKit是代理程式的前端技術堆疊。大多數代理技術堆疊只提供後端，而將使用者介面部分完全留給使用者自行開發。

CopilotKit 層提供了所有建置模組，包括聊天元件、鉤子、用於自訂代理介面的無頭 UI、持久線程、人機互動、共享狀態以及用於除錯的內建檢查器。

它們在一個執行時環境中支援所有三種生成式 UI 模式。簡而言之，它允許代理顯示元件，而不僅僅是描述它們（Google的 A2UI 就是一種模式）。

我最喜歡的是他們為編碼代理提供了一個MCP伺服器，允許編碼代理獲取即時文件，沒有任何使用限制。

只需幾行程式碼，即可直接連接到任何 LLM，無需後端任何代理框架，並使其能夠感知您的應用程式上下文。他們還支援與 13 個以上主流框架的第一方整合。

import {
  CopilotRuntime,
  copilotRuntimeNextJSAppRouterEndpoint,
} from "@copilotkit/runtime";
import { BuiltInAgent } from "@copilotkit/runtime/v2"; 
import { NextRequest } from "next/server";

const builtInAgent = new BuiltInAgent({ 
  model: "openai:gpt-5.5",
});

const runtime = new CopilotRuntime({
  agents: { default: builtInAgent }, 
});

export const POST = async (req: NextRequest) => {
  const { handleRequest } = copilotRuntimeNextJSAppRouterEndpoint({
    runtime,
    endpoint: "/api/copilotkit",
  });

  return handleRequest(req);
};

您可以啟用多模態附件，例如圖像、PDF、音頻、影片，並透過reasoningEffort來控制模型思考的難度。

副駕駛套件

這種與框架無關的設計使其非常實用。它基於AG-UI協議建置，AG-UI 是一種用於代理-用戶互動的開放式事件協議，目前已被 Google、AWS、Microsoft、LangChain 等眾多公司採用。因此，即使您切換任何框架或協議，前端的所有內容都將保持不變。

AG-UI

我最近在幾個專案中都用到了它，包括我用 LangChain Deep Agents 建置的求職助手，它幫助我了解了它在底層所做的一切。

CopilotKit 在 GitHub 上擁有 31.5k 個星標。

https://github.com/CopilotKit/CopilotKit Star CopilotKit ⭐️

替代方案

TanStack AI－由 TanStack 團隊開發的框架無關、廠商中立的 AI SDK。它提供強大的 TypeScript 支持，並針對每個提供者提供模組化適配器。它是 Vercel AI SDK 的直接替代方案，且無需與 Next.js 耦合。
Vercel AI SDK－適用於 Next.js 中的串流和工具呼叫。它無狀態且與 Vercel 生態系統緊密整合。
Tambo是一個專注於生成式 UI 的 React SDK。目前仍處於早期階段，尚未建置完整的客服聊天技術棧。
助理 UI - 用於建立聊天 UI 的無頭 React 原語。
agent-native是 Builder.io 出品的框架，其中代理程式和 UI 共享同一個動作模型。只需定義一次動作，即可同時供兩者使用。無需單獨的代理 API－如果 UI 可以執行某個操作，代理程式也可以執行，反之亦然。

技能和插件 - agent-skills

Anthropic公司推出了Skills模式，整個生態系統迅速發展。很多人甚至說MCP模式因為Skills模式而消亡（我並不這麼認為）。

技能本質上是一個目錄，其中包含一個 SKILL.md 文件，該文件包含組織有序的資料夾，其中包含指令、腳本和資源，這些指令、腳本和資源為代理提供額外的功能。

官方倉庫擁有 13.8 萬顆星，值得閱讀其工程博客，以了解漸進式披露在實踐中的運作方式。

Addy Osmani 的agent-skills堪稱精品。它包含 23 項生產級工程技能，以及 7 個斜杠指令，涵蓋完整的開發生命週期（ /spec 、 /plan 、 /build 、 /test 、 /review 、 /ship ）。

嚴格的退出標準、反合理化表格、漸進式資訊揭露。這些都體現了Google的工程文化——海勒姆定律、碧昂絲法則、主幹開發。

它在GitHub上獲得了43.8k顆星。以下是所有包含的技能。

https://github.com/addyosmani/agent-skills 明星特工技能 ⭐️

agent-skills/
├── skills/                            # 23 skills (22 lifecycle + 1 meta)
│   ├── interview-me/                  #   Define
│   ├── idea-refine/                   #   Define
│   ├── spec-driven-development/       #   Define
│   ├── planning-and-task-breakdown/   #   Plan
│   ├── incremental-implementation/    #   Build
│   ├── context-engineering/           #   Build
│   ├── source-driven-development/     #   Build
│   ├── doubt-driven-development/      #   Build
│   ├── frontend-ui-engineering/       #   Build
│   ├── test-driven-development/       #   Build
│   ├── api-and-interface-design/      #   Build
│   ├── browser-testing-with-devtools/ #   Verify
│   ├── debugging-and-error-recovery/  #   Verify
│   ├── code-review-and-quality/       #   Review
│   ├── code-simplification/          #   Review
│   ├── security-and-hardening/        #   Review
│   ├── performance-optimization/      #   Review
│   ├── git-workflow-and-versioning/   #   Ship
│   ├── ci-cd-and-automation/          #   Ship
│   ├── deprecation-and-migration/     #   Ship
│   ├── documentation-and-adrs/        #   Ship
│   ├── shipping-and-launch/           #   Ship
│   └── using-agent-skills/            #   Meta: how to use this pack
├── agents/                            # 3 specialist personas
├── references/                        # 4 supplementary checklists
├── hooks/                             # Session lifecycle hooks
├── .claude/commands/                  # 7 slash commands (Claude Code)
├── .gemini/commands/                  # 7 slash commands (Gemini CLI)
└── docs/                              # Setup guides per tool

替代方案

skills.sh - 代理技能的 npm 包（市場）。使用npx skills add <owner/repo>安裝任何技能。排行榜展示的是開發者實際使用的技能，而不是發布當天被大肆宣傳的技能。
taste-skill－便攜式設計美學技能（極簡主義、粗獷主義、GPT 優化），可有效改善 AI 生成的千篇一律的粗糙作品。這是少數能顯著改變智能體生成作品的技能之一。我已經使用它幾個月了。
Repomix－將整個程式庫打包成一個AI友善的檔案。您可以根據需要選擇何時讓代理一次查看整個程式碼庫。

電腦使用 - UI-TARS 桌面

大多數電腦應用代理程式會截取螢幕截圖，然後讓通用虛擬語言模型（VLM）猜測像素座標。 UI -TARS經過端到端的 GUI 基礎訓練——它將 UI 元素理解為一等概念，而不僅僅是可點擊的圖像區域。

我發現真正有趣的是「系統 2 反思」——每次操作後，它都會比較操作前後的螢幕截圖，如果出現問題，它會產生糾正計劃，而不是簡單地執行出錯的序列。

計算機使用

它在 OSWorld 和 Claude Computer Use 上的得分更高。就我個人而言，我認為實際使用體驗遠比跑分重要得多。 😅

他們還提供Agent TARS——一個 CLI 和 Web UI，它將相同的願景以及 MCP 工具整合帶到您的終端和瀏覽器中。

你可以這麼說：請幫我在 Priceline 上預訂 9 月 1 日從聖荷西飛往紐約的最早航班和 9 月 6 日的最後一班回程航班。所有範例都在自述文件中。

它在 GitHub 上獲得了 34k 個星標。

https://github.com/bytedance/UI-TARS-desktop 為 UI-TARS Desktop 讚 ⭐️

我發現了一個非常有趣的倉庫，叫做Sutando 。它是一個適用於 macOS 的個人 AI 代理，可以在你的 Claude Code 訂閱上執行，額外費用極低。

它的應用場景非常廣泛。你可以說“加入我下午2點的通話”，它就會讀取你的日曆，通過桌面應用加入Zoom會議，或者通過瀏覽器加入Google Meet會議，截屏辨識參會人員，在有人提問時進行實時搜尋，並在通話結束後為你生成一份總結報告。

或者你可以用手機呼叫它，說「召喚」——它會打開 Zoom 並共享螢幕，你可以一邊走動一邊用語音控制你的電腦。

蘇坦多

當你不給它分配任務時，Sutando 會執行一個自主建置循環——它會監控自身的健康狀況，檢測你的工作方式模式，發現新技能，並建置缺少的功能，這簡直太瘋狂了。

它在Github上有300多個星標，但它確實很有趣。

替代方案

Midscene－同樣來自位元組跳動Web基礎設施團隊。它透過一個API，即可實現跨Web、Android和iOS的視覺驅動UI自動化。 Midscene與Playwright和Puppeteer集成，並提供Chrome擴充程式、CLI和MCP伺服器。
Agent-S是一種分層規劃方法，它基於過往互動建立知識庫，並利用該知識庫規劃未來的任務。在 OSWorld 和 WindowsAgentArena 基準測試中表現良好。
Bytebot－一個執行在容器化Linux環境下的自架AI桌面代理程式。該代理程式擁有完整的虛擬桌面——瀏覽器、檔案系統、密碼管理器以及任何應用程式。執行docker-compose up即可啟動。
cua - macOS/Linux VM 沙箱，使代理程式在虛擬機器上執行，而不是在您的真實機器上執行。
OpenHands－功能齊全的開發者環境，可以瀏覽網頁、編寫程式碼、執行測試和提交 PR。在「編碼代理」部分會再次介紹。

代理編排 - LangGraph

LangGraph是基於 LangChain 建構的有狀態圖執行環境。它是建置、管理和部署長時間執行的有狀態代理的最成熟的框架。

循環是一個圖。每一步都是一個節點。狀態是類型化的，並設有檢查點。你可以在任何節點暫停，將整個狀態序列化到磁碟，幾天後在另一台機器上繼續執行。

他們還提供Deep Agents——一個基於 LangGraph 的編碼代理框架，具有規劃、檔案系統工具、子代理程式和上下文壓縮功能，如果您想跳過自己編寫圖，可以使用它。

將其與 LangSmith Engine、LangChain、Deep Agents 等其他產品結合使用，開發者就能獲得一套完整的代理建置工具。而且它在除錯方面也超實用。

如果你感到困惑，這裡有一個簡單的區別：

LangChain－透過鍊式呼叫和create_agent代理程式。簡單易上手，但狀態的控制較少。它是所有其他功能的基礎。如果進程終止，代理程式會重新啟動。
LangGraph 是一個基於 LangChain 建構的有狀態圖執行時環境。您可以從任何檢查點重播錯誤訊息，以偵錯問題所在。
Deep Agents - 基於 LangGraph 建置的工具。

LangGraph 在 GitHub 上擁有 32.3k 個星標。

https://github.com/langchain-ai/langgraph Star LangGraph ⭐️

LangGraph

替代方案

Agno為需要持久記憶體和多模態輸入的代理提供輕量級支援。它自帶 AgentOS，這是一個預先建置的 FastAPI 伺服器，支援會話、串流、基於角色的存取控制 (RBAC) 和可觀測性。據稱其實例化速度比 LangGraph 快 529 倍。
Mastra——一款以 TypeScript 為核心，並內建 RAG（紅黃綠燈）、可觀測性、MCP（多層協作）和工作流程的框架。如果你的團隊主要使用 JS/TS 而不是 Python，那麼 Mastra 是你的最佳選擇。
Pydantic AI ——Pydantic 團隊開發的類型安全的智慧體框架。無需自行編寫驗證器，即可獲得經過驗證的結構化輸出。
Google ADK—谷歌官方的代理開發工具包，原生整合了 Vertex AI。如果您在 Google Cloud 上建立應用，請選擇它。
PocketFlow－一個僅有100行程式碼的LLM框架。真正做到了極簡。當LangGraph的架構過於龐大時，不妨選擇它。

編碼代理工具 - 深度代理

代理程序是指模型周圍使其成為代理人的一切要素－工具、狀態、規劃、記憶、回饋迴路、防護措施。

你可以說：「代理人 = 模型 + 框架」。 LangChain 證明了這一點比大多數團隊預想的更重要：僅框架層的更改就使同一個模型在 Terminal Bench 2.0 上的準確率從 52.8% 提升到 66.5%，排名從前 30 名躍升至前 5 名。模型本身沒有做任何更改。

Deep Agents是 LangChain 基於 LangGraph 建構的整合式框架，內建規劃、檔案系統工具、子代理程式和情境壓縮功能。

User goal
  ↓
Deep Agent (LangGraph StateGraph)
  ├─ Plan: write_todos → updates "todos" in state
  ├─ Delegate: task(...) → runs a subagent with its own tool loop
  ├─ Context: ls/read_file/write_file/edit_file → persists working notes/artifacts
  ↓
Final answer

長時間執行的代理程式的核心問題是，它們會不斷累積工具呼叫結果，直到上下文視窗被填滿——這會導致上下文污染、分心和混亂。

他們的解決方法：

大型工具的輸出會寫入虛擬檔案系統，而不是提示字元。
技能啟動時僅載入前言，完整內容按需載入。
隨著會話時間的增加，對話歷史記錄會被壓縮。
子代理程式在各自的上下文視窗中執行，主代理只能取得最終結果。

你可以圍繞它建立很多東西，例如深度研究助手。

深度研究助理

Deep Agents 在 GitHub 上擁有 23.1k 個星標。

https://github.com/langchain-ai/deepagents 為 Deep Agents 讚 ⭐️

替代方案

Hive－以結果為導向的智能體發展框架。智能體根據其是否真正達成目標而進化，而不僅僅是根據其是否完成了步驟。
Browser Harness——來自 Browser Use 團隊。這款自癒式 Harness 賦予 LLM 最大程度的自由度——它無需像傳統框架那樣用數千行啟發式程式碼封裝 Chrome，而是讓 LLM 直接使用 CDP，並在需要時加入自己的工具。這與大多數瀏覽器框架的概念截然不同。
Archon是一款開源的 AI 編碼框架建構工具。只要描述您的需求，它就能為您產生一個確定性的、可重複使用的智慧體框架。

開源編碼代理程式 - OpenCode

我曾廣泛使用 Claude Code 和 Codex。兩者都很出色，但都局限於各自的生態系統。

OpenCode是開源替代方案——終端原生、支援 75 多個供應商、整合 LSP、多會話（在同一專案上並行執行多個代理程式）、隱私優先。

它的獨特之處在於：從一開始就真正做到了與供應商無關。您可以在同一會話中切換 Claude、Gemini、GPT-5 和本機模型，而無需重新配置任何內容。大多數其他編碼代理在預設設定中都配置了首選模型。

你也可以分享任何會話的連結以供參考或除錯。它提供終端介面、桌面應用程式和 IDE 擴充三種形式——不過我只用過終端。

OpenCode 在 GitHub 上擁有 16.2 萬顆星。

https://github.com/sst/opencode 為 OpenCode 讚 ⭐️

開放程式碼

替代方案

Codex（OpenAI） ——OpenAI 的官方終端編碼代理。選擇它，即可獲得第一方支援和最簡潔的 GPT-5 整合。
Gemini CLI是Google官方的終端代理，擁有 100 萬個令牌上下文。其免費套餐在實驗方面堪稱完美。
Cline是一款 VS Code 擴展，支援逐步批准。您可以選擇使用 IDE 原生控製而非終端。
Aider－一款基於 Git 的終端結對程式設計工具。 Aider 自身 70% 以上的程式碼都由 Aider 編寫。速度快，且與模型無關。
OpenHands－功能齊全的代理開發環境，可瀏覽網頁、執行 shell 腳本和提交 PR。比其他工具更佔資源。
Goose - Block 的可擴展編碼代理，具有一流的 MCP 和清晰的擴展模型。

瀏覽器自動化 - 瀏覽器使用

瀏覽器使用功能為您的代理程式提供了一個瀏覽器。只需指向一個 URL，描述您想要執行的操作，它就會點擊、輸入和導航。您編寫的是意圖，而不是選擇器——代理程式會讀取 DOM 並自行計算互動。

LLM 優先設計意味著你描述的是意圖，而不是選擇器，代理人會自行決定 DOM。

它們之所以如此優秀，是因為它們專門為瀏覽器任務建立了專用的LLM模型。它們的bu-ultra模型在Mind2Web的得分為97%，而claude-opus-4-6的得分為62%。

瀏覽器使用

這個開源庫適用於任何模型，但基準測試使用的是他們自訂的模型。

他們還有一個桌面應用程式，可以直接控製本地 Chrome 瀏覽器，以及Browser Use Box——一個全天候的 Claude Code 代理，您可以將其部署在任何 5 美元的 VPS 上，並通過 Telegram 進行控制。

# pip install browser-use-sdk

from browser_use_sdk.v3 import AsyncBrowserUse

client = AsyncBrowserUse()

result = await client.run(
  "Go to amazon.com, extract 200 products with name, price and reviews, save to products.csv"

它在 GitHub 上獲得了 94k 個星標。

https://github.com/browser-use/browser-use 讚 Browser Use ⭐️

替代方案

舞台助理－四個基本要素： act 、 extract 、 observe 、 agent 。需要時提供確定性的逐步控制，不需要時則可自主執行。自癒能力－「點擊提交」操作不會因頁面重新設計而失效，因為它由 AI 在執行時解析，而不是使用硬編碼的選擇器。
Playwright MCP - 微軟的 MCP 伺服器，封裝了 Playwright。如果您已經編寫了 Playwright 測試，並希望您的代理程式使用相同的瀏覽器，請選擇此專案。
Skyvern－利用大量智慧體和電腦視覺技術來處理從未造訪過的網站。它不使用 XPath 或選擇器，而是即時將視覺元素映射到相應的操作。此外，它還提供了一個無需編寫程式碼的工作流程建構器。
Scrapling－一款自適應爬蟲，能夠應付選擇器漂移。開箱即用，可繞過 Cloudflare Turnstile 等反機器人系統。支援並發多會話爬取，並自動輪換代理。

網路抓取與資料攝取 - Firecrawl

代理商需要不斷地從網路上取得內容——研究、監控、競爭情報、RAG管道。

大多數爬蟲會傳回原始 HTML，其中包含導覽選單、廣告和 cookie 橫幅，這些都會消耗令牌並擾亂模型。

Firecrawl可以將任何網站轉換為簡潔的、可直接用於 LLM 的 Markdown 或結構化的 JSON。它提供三個核心接口，涵蓋所有方面：

/search用於搜尋已擷取內容的網路搜尋結果
/scrape取得完整頁面 Markdown
/extract結構化 JSON。

他們還有一個/agent接口，您只需用自然語言描述您的需求，它就能自動跨多個網站進行搜尋、導航和提取。無需提供 URL。

import Firecrawl from '@mendable/firecrawl-js';
import { z } from 'zod';

const firecrawl = new Firecrawl({ 
  apiKey: 'fc-YOUR-API-KEY' 
});

const schema = z.object({
  companies: z.array(z.object({
    name: z.string(),
    founders: z.array(z.string()),
    funding: z.string().optional(),
    website: z.string()
  }))
});

const result = await firecrawl.agent({
  prompt: 'Get all YC W24 companies',
  schema: schema
});

他們的FIRE-1 導航代理（測試版）能夠自主瀏覽複雜的網站，進行點擊、捲動、填寫表單等操作，並在提取資料前處理多步驟流程。登入或分頁後的頁面不再是障礙。

還有更多內容，歡迎探索。它在GitHub上擁有12.2萬顆星。

https://github.com/mendableai/firecrawl 星級 Firecrawl ⭐️

替代方案

Gitingest - 將任何 GitHub URL 中的“hub”替換為“ingest”，即可獲得程式碼庫的快速摘要。支援按檔案大小篩選、包含/排除特定路徑，並且也支援私有倉庫。
Crawl4AI－開源、可自行託管，無需API金鑰。專為RAG管線建構－支援LLM感知分塊、BM25內容過濾、全站抓取並可控制抓取深度。您可以根據需要選擇何時啟用完全控制功能，無需按請求付費。
Jina Reader - 在任何 URL 前加入r.jina.ai/即可獲得簡潔的 Markdown 格式。無需任何設置，無需 SDK。適用於快速的單次頁面轉換或原型設計，無需任何配置。
ScrapeGraphAI－提示驅動型網路爬蟲。用自然語言描述你想要提取的內容，它會自動建立爬蟲工作流程。選擇何時需要提取結構化的 JSON 資料，而不僅僅是 Markdown 格式。

多智能體框架 - CrewAI

CrewAI是目前應用最廣泛的多智能體架構。您只需定義一組具有特定角色、目標和工具的智能體，CrewAI就會負責處理它們如何合作完成任務。

基於角色的模型（專案經理、研究員、工程師）很直觀，因為它與你實際如何在人們之間分配工作相對應。

它是進入多智能體系統最簡單的入口。文件齊全，社區龐大，幾乎所有方面都有範例。

權衡之處在於控制——代理之間的通訊是透過任務輸出而不是直接訊息傳遞來進行的，而且對於長時間執行的工作流程，沒有內建的檢查點機制。

CrewAI Flows（一種較新的事件驅動模式）針對可預測的流程解決了部分問題。對於具有回饋迴路的循環工作流程，大多數團隊最終會將部分功能遷移到 LangGraph。

CrewAI 在 GitHub 上有 51.6k 個星標。

https://github.com/crewAIInc/crewAI 為 CrewAI 讚 ⭐️

替代方案

AG2是 AutoGen 的社群分支（微軟已將 AutoGen 轉為維護模式）。它包含可對話的智能體，可以在群組聊天、叢集和嵌套聊天中進行交流。更適合研究和自訂通訊模式。
Microsoft Agent Framework －AutoGen 的企業級繼任者。它擁有穩定的 API、長期支持，並內建 A2A 和 MCP 功能。您可以根據自身需求選擇合適的長期支援方案。
OWL－基於CAMEL的多智能體自動化框架。它採用規劃智能體+執行智能體模型，用於處理長期實際任務。在GAIA基準測試中，OWL在開源框架中排名第一。
MetaGPT－模擬一家軟體公司，包含專案經理、架構師和工程師等角色。最適合用於程式碼產生流程。
AgentScope－阿里巴巴的開發框架，內建即時語音、MCP、A2A和OTel功能。

文件處理 - 文件化

將 PDF 文件交給代理程序，卻發現它漏掉了表格中明明存在的訊息，這令人沮喪。大多數解析器提取的是原始文本，丟失了文本結構——表格被扁平化，多列佈局被壓縮，公式變得難以閱讀。

Docling是 IBM 研究院的文件轉換引擎，現已捐贈給 Linux 基金會。它使用 Granite-Docling-258M——一種專為文件轉換而建置的參數化視覺語言模型，其性能可與規模大數倍的系統相媲美。

輸出使用DocTags ，這是一種 IBM 研究院開發的通用標記格式，它能捕捉每個頁面元素及其類型、位置和閱讀順序，而不僅僅是 Markdown。這使得下游的 RAG 演算法更加準確。

紅帽公司稱之為「排名第一的文件智慧開源倉庫」。分享一下，沒什麼特別的原因😅

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # file path or URL
converter = DocumentConverter()
doc = converter.convert(source).document

print(doc.export_to_markdown())  # output: "### Docling Technical Report[...]"

Docling 在 GitHub 上擁有 60.1k 個星標。

https://github.com/docling-project/docling 為 Docling 讚 ⭐️

替代方案

LlamaIndex－功能齊全的 RAG 框架，擁有 160 多個資料連接器。當您需要跨多個資料來源進行流程編排時，LlamaIndex 是您的理想之選，而不僅僅是文件解析。
MinerU－一款具備最先進的表格與公式擷取功能的PDF解析器。是處理以數學公式和方程式為主的技術或科學文件的理想選擇。
RAGFlow ——DeepDoc 管線，可端對端處理解析、分塊和檢索。您可以選擇何時使用完整的 RAG 技術堆疊，而不僅僅是解析器。
Marker是一款高保真度的 PDF、EPUB、PPTX 轉 Markdown 工具。速度比 Docling 更快，GPU 要求更低。是大量輸出清晰純文字檔案的理想之選。
PaddleOCR ——MinerU、RAGFlow 和 OmniParser 的底層 OCR 引擎。支援 100 多種語言，並提供瀏覽器 SDK。當您需要直接使用強大的 OCR 功能時，PaddleOCR 是您的理想之選。
非結構化－支援 65 種以上的文件格式，包括電子郵件、電子表格和圖像。適用於不僅限於 PDF 的混合輸入流程。

語音代理 - Pipecat

建構語音代理仍然比想像中更難。在我看來，人工智慧部分基本上已經解決。困難在於它周圍的一切，例如中斷處理、傳輸以及跨語音合成/語言記憶/文字轉語音邊界的延遲預算。

Pipecat是 Daily 開發的 Python 框架，用於即時語音和多模態 AI 代理。 STT、LLM 和 TTS 是可組合的幀處理器，類似於 Unix 管道，但專門用於語音處理。

我選擇它的原因是：你可以隨意替換任何語音轉文字（STT）、語音合成模型（LLM）或文字轉語音（TTS）元件，而無需重寫管道。大多數開發者都不希望被單一供應商鎖定，尤其是在語音模型品質仍在快速變化的情況下。

Silero VAD（語音活動偵測）在框架層級處理中斷 - 回應過程中的語音活動會停止音訊並自動重新啟用 LLM。

Pipecat Flows 接著新增預先定義的對話路徑和動態轉換，讓客服人員在通話過程中保持專注，不會偏離腳本。

import {
  PipecatAppBase,
  ConnectButton,
  UserAudioControl,
} from "@pipecat-ai/voice-ui-kit";

<PipecatAppBase
  transportType="smallwebrtc"
  connectParams={{ webrtcUrl: "/api/offer" }}
>
  <div>
    <ConnectButton />
    <UserAudioControl />
  </div>
</PipecatAppBase>

您可以造訪網站並親自體驗。如您所見，我詢問了“如何將其整合到我的應用程式中”，它不僅打開了程式碼面板，還給了我詳細的解釋。

pipecat

程式碼面板有很多（安裝、管線、最終實作）。讓我驚訝的是，它能夠檢測到我停止程式時修改過程式碼，這使得它能夠感知應用程式的上下文。

pipecat

它獲得了12000顆星。

https://github.com/pipecat-ai/pipecat 明星 Pipecat ⭐️

前幾天我參與了一個專案，客服人員會根據通話內容自動產生相應的表單，而且效果不錯。通常來說，僅憑語音很難收集到足夠的資料。

語音生成式使用者介面

替代方案

LiveKit Agents ——OpenAI（ChatGPT Voice）和 Meta 所依賴的 WebRTC 技術堆疊。它採用房間優先而非管道優先的架構——您的代理商以參與者的身份加入對話。支援原生電話功能、語意輪次偵測和 MCP。您可以根據需要選擇是否需要將生產基礎設施與框架捆綁在一起。
fish-speech－最先進的開放式文字轉語音技術，支援多語言零樣本語音複製。當輸出品質比編排更重要時，它是理想之選。
Moonshine－延遲極低的裝置端語音轉文字 (STT)。當延遲是限制因素且雲端服務不可行時，請選擇它。
Whisper ——OpenAI 的語音轉錄模型。自訂語音堆疊的預設轉錄層。
GPT-SoVITS－僅需1分鐘音訊即可進行少量樣本語音克隆，或僅需5秒音訊即可進行零樣本語音克隆。支援中文、英文、日文和韓文。是訓練資料量極少的克隆語音文字轉語音（TTS）應用的理想選擇。
CosyVoice－阿里巴巴推出的多語言零延遲語音生成技術，延遲僅150毫秒。是追求非英語語音品質使用者的理想選擇。

可視化建構器 - Langflow

Langflow是一款由 IBM 支援的拖放式代理管道建構器。它可以連接到任何 LLM、任何向量資料庫和任何工具。

首席技術官是這樣說的：“Langflow 本質上是一個 API 設計器。流程會變成一個端點，你可以從任何地方呼叫它。”

它的獨特之處在於：整個流程會變成一個可呼叫的 REST 端點。您可以先進行視覺化原型設計，然後您的工程師可以從任何程式碼庫中呼叫它作為 API。

每個元件都公開了它的 Python 類，因此您可以在不離開工具的情況下使用自訂邏輯進行擴充。

您可以找到許多預置模板來快速上手。這裡有一個供應鏈風險監控工作流程，它透過將供應商和路線資料與即時新聞訊號關聯起來，來評估中斷風險。

朗福斯

它在 GitHub 上獲得了 14.9 萬顆星。

https://github.com/langflow-ai/langflow 明星 Langflow ⭐️

替代方案

Dify是一個 LLM 應用平台，配備視覺化代理程式建構器、RAG 流程和外掛程式市場。您可以選擇更精緻的使用者介面和內建應用框架。
Sim－一款拖放式代理編排工具，目前正處於積極開發階段。它是目前最簡潔的 2026 原生 Langflow 替代方案。
n8n－擁有400多個整合和強大的AI節點的自動化工作流程解決方案。尤其適用於以代理商為中心的跨服務自動化工作流程。
Flowise－更簡單的無程式碼 LangChain 建構器。適合需要建立代理工作流程而無需編寫程式碼的非技術使用者。
Coze Studio－位元組跳動的開源視覺化代理平台。代理建置器支援紅黃綠藍寶石（RAG）和插件，工作流引擎支援循環和自訂Python執行。

MCP 和工具整合 - Composio

MCP 伺服器解決了代理程式如何連接到工具的問題。但是，管理 OAuth、令牌刷新以及維護 1000 多個整合仍然需要您解決。

Composio是您的代理商與具有託管身份驗證的現實世界工具之間的整合層。

我最喜歡的部分是工具路由——一個MCP端點，它能根據代理的意圖動態發現並載入合適的工具。它不會預先載入所有工具導致上下文資訊臃腫，而是只顯示相關的工具。

他們在 GitHub 上獲得了 28.4k 個星標。

https://github.com/ComposioHQ/composio 明星作曲 ⭐️

替代方案

LiteLLM - 一個統一的 API，支援 100 多個 LLM 提供者。 Azure、Bedrock 和 Anthropic 對您的程式碼來說都像 OpenAI 一樣。成本追蹤、路由、回退。選擇模型網關層。
MindsDB－透過單一介面即可使用 SQL 存取 200 多個資料來源，無需 ETL。同時也支援 MCP 伺服器。您可以自行選擇代理何時需要讀取資料，而不是何時執行操作。
ACI－透過統一的MCP伺服器整合600多種工具。可作為自架的Composio替代方案。
Portkey AI 閘道- 1600 多種型號，內建安全防護措施。適用於對網關延遲要求較高的情況。

沙箱和程式碼執行 - E2B

當代理程式產生並執行程式碼時，這些程式碼需要一個安全的地方來執行。普通的 Docker 容器共享宿主機核心——一旦出現漏洞，不受信任的程式碼就會洩漏出去。

E2B提供隔離的沙箱環境，使代理程式能夠安全地執行程式碼、處理資料和執行工具。他們的 SDK 讓啟動和管理這些環境變得輕鬆便捷。

它在 Firecracker 微型虛擬機器中執行代理程式生成的程式碼——每個沙箱都有自己獨立的核心。啟動時間約 150 毫秒，預先安裝了完整的 Linux 檔案系統、Python、Node 和常用軟體包。

import { Sandbox } from 'e2b'

const sandbox = await Sandbox.create() // Needs E2B_API_KEY environment variable
const result = await sandbox.commands.run('echo "Hello from E2B Sandbox!"')
console.log(result.stdout)

所有程式都不會直接操作主機。 Manus 用它來執行 27 種不同的工具。 Perplexity 用它來進行資料分析。 Hugging Face 用它來復現 DeepSeek-R1。

你可以查看他們的 cookbook 倉庫中的一些範例，以了解如何使用所有這些功能。

e2b 食譜

它在 GitHub 上獲得了 12k 個星標。

https://github.com/e2b-dev/E2B 為 E2B 讚 ⭐️

替代方案

OpenSandbox是阿里巴巴的內部沙箱基礎設施，涵蓋編碼代理、GUI 代理、瀏覽器自動化、VNC 桌面和強化學習訓練，所有功能均可透過一個 API 實現。它支援 Docker 和 Kubernetes 執行時環境，功能範圍比 E2B 更廣。
Daytona－啟動速度僅需約90毫秒，開源，提供持久化環境，並整合了Git和LSP。當您需要跨會話持久化的狀態時，Daytona是您的理想選擇。
微型沙箱－本地可程式沙箱。您可以選擇在開發機器上執行沙箱，而無需依賴雲端。
Firecracker ——E2B、Lambda 和 Fargate 底層的微型虛擬機器技術。在需要完全控制原始虛擬機器層時，可以選擇它。

代理記憶體 - mem0

記憶力是大多數智能體演示在實際生產環境中失敗的關鍵。智能體在上一次會話中記住了某些訊息，下一次就忘記了。我們可不想智能體在關閉標籤頁後就「死亡」哈哈。

mem0是目前應用最廣泛的獨立記憶層。它不儲存原始對話片段，而是執行一個提取階段，辨識關鍵資訊並將其提煉成簡潔的自然語言記憶。它透過一個介面即可處理短期記憶、長期記憶和實體記憶。

# Add a memory
messages = [
    {"role": "user", "content": "I'm a vegetarian and allergic to nuts."},
    {"role": "assistant", "content": "Got it! I'll remember your dietary preferences."},
]
client.add(messages, user_id="user123")

# Search memories
results = client.search(
    "What are my dietary restrictions?",
    user_id="user123",
)
# print(results)

大多數主流框架都以這樣的方式建立記憶體：LangGraph 內建了檢查點（每個執行緒的狀態持久化、時間旅行、崩潰復原），而 CopilotKit 透過useThreads實現了持久線程。

值得注意的差距：Mem0 在 LongMemEval 上的得分為 49%，而 Zep 的得分為 63.8%——這種差異源於時間推理。

對於個性化記憶而言，它是務實的選擇。但對於需要推理事實隨時間變化的智能體來說，Graphiti 是更好的選擇。

它在 GitHub 上獲得了 55k 個星標。

https://github.com/mem0ai/mem0 為 Mem0 讚 ⭐️

替代方案

Graphiti ——Zep 的時間知識圖譜引擎。它儲存帶有有效期的事實——不僅包括發生了什麼，還包括何時發生以及是否仍然屬實。
Letta（原名 MemGPT） ——執行時內建於系統提示符號中的記憶體。代理程式自行決定保留哪些資訊－並非事後檢索，而是將其推理過程內建其中。
Supermemory是一款跨代理程式的記憶體 API，具有 OpenCode、OpenClaw 和 Claude Code 的插件。只需輸入“記住此專案使用了 Bun”，它就會自動儲存。下次會話時，上下文會自動顯示。
Cognee－確定性知識圖譜儲存管道。適用於大型語料庫的結構化儲存。

測驗與評估 - DeepEval

大多數團隊完全忽略評估，直到生產環境出現問題。到那時，除錯就完全是盲目了──根本不知道問題出在提示符號、檢索、模型，還是三者都有問題。

DeepEval將 eval 整合到您的測試套件中。您可以像編寫單元測試一樣編寫斷言，在持續整合 (CI) 環境中執行它們，並在產品發布前捕獲回歸問題。

涵蓋 50 多個指標，包括 RAG（紅綠燈）、智能體、工具使用、多輪對話和安全性。其中，與智能體相關的指標最為實用，例如：任務完成率、論證正確性、工具正確性和步驟效率。此外，它還能產生難以手動收集的極端情況的合成資料集。

它在 GitHub 上獲得了 15.6k 個星標。

https://github.com/confident-ai/deepeval 為 DeepEval 讚 ⭐️

替代方案

promptfoo－一款集命令列評估和紅隊演練於一體的工具。適用於對抗性測驗與準確率指標同等重要的場合。
Phoenix——來自 Arize AI 的 OTel 原生追蹤和評估工具。自動整合 LangChain、LlamaIndex、Mastra 和 Vercel AI SDK。如果您已在使用 OTel 並希望在一個工具中完成追蹤和評估，請選擇 Phoenix。
Opik ——Comet的開放式評估與追蹤平台。您可以根據需要選擇何時同時進行評估和可觀測性分析。
MLflow－現在除了機器學習生命週期工具外，還具備完整的機器學習生命週期管理和代理評估功能。如果您的團隊已經在使用 MLflow 進行傳統機器學習，請選擇此功能。
garak ——NVIDIA 的 LLM 漏洞掃描器。在其他人之前探測您的代理是否有弱點。
AI基礎設施衛兵－騰訊的紅隊演練平台。可掃描MCP伺服器、代理技能和AI基礎設施。您可以選擇在部署前何時發現漏洞。

監控與可觀測性 - Langfuse

大多數團隊都是在使用者回報問題後才發現代理程式故障。到那時，除錯起來就像是在除錯一個黑盒子——完全無法追蹤代理程式執行了哪些操作、操作順序以及哪裡出了問題。

Langfuse是事實上的開源 LLM 可觀測性堆疊。它將追蹤、評估、提示版本控制和成本追蹤整合在一個可自託管的軟體包中。

追蹤資訊準確地顯示了代理執行了哪些操作，延遲是多少，成本是多少。這使得除錯多步驟代理變得更加容易。

朗福斯

它在 GitHub 上獲得了 27.6k 個星標。

https://github.com/langfuse/langfuse 讚 Langfuse ⭐️

替代方案

Opik ——Comet的追蹤、評估與儀錶板工具。它是Langfuse的同類產品，並且擁有Comet的機器學習血統，因此是理想之選。
TensorZero－集網關、可觀測性和優化於一體的工具。只需一台設備即可完成所有操作，無需三台設備。
Logfire ——Pydantic 團隊開發的 OTel 原生 LLM 可觀測性解決方案。與 Python 和 Pydantic-AI 智能體完美相容。
OpenLLMetry - OTel 的 LLM 應用偵測程式庫。您可以選擇何時將代理追蹤資料匯入現有的 Grafana 或 Datadog 後端。

關於代理協議的簡要說明

現代代理協定棧由三種協定構成。了解它們之間的差異非常重要：

MCP（模型上下文協定） ——智能體到工具的互動。 Anthropologie 的標準，現在由 Linux 基金會擁有，已被 OpenAI、Google 和 Microsoft 採用。 GitHub
A2A（Agent-to-Agent） －代理之間的通訊。谷歌用於代理間通訊的協定。 GitHub
AG-UI——代理到用戶。這是由 CopilotKit 發起的用於代理與用戶互動的開放式事件協議，目前已被 Google、AWS、Microsoft、LangChain 和 Mastra 等公司採用。 GitHub