🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 12月29日

我建造了一個生產級 RAG 系統，每月成本僅為 5 美元（大多數替代方案的成本在 100-200 美元以上）。

太長不看

我在 Cloudflare 的邊緣部署了一個語義搜尋系統，每月成本僅為 5-10 美元，而通常需要 100-200 美元甚至更多。它速度更快，遵循企業級 MCP 可組合架構模式，並且能夠處理生產環境流量。以下是具體實作方法。

問題：人工智慧搜尋成本高昂

上個月，我研究了典型的人工智慧基礎設施成本，並意識到為什麼這麼多新創公司難以加入語義搜尋功能。

傳統 RAG 演算法堆疊（適用於每月約 10,000 次搜尋）：

松果向量圖庫：每月 50-70 美元（標準套餐最低價格）
OpenAI 嵌入 API：每月 30-50 美元（按使用量計費）
AWS EC2 伺服器（t3.medium）：每月 35-50 美元
監控/日誌記錄：每月 15-20 美元

總價：每月 130-190 美元，而這本應是基本功能。

對於一家自籌資金的新創公司來說，如果想在文件中加入「人工智慧搜尋」功能，那麼在從該功能中賺到一分錢之前，每年就要花費 1560 到 2280 美元。

必須做出改變。

假設：如果一切都在極限邊緣運作會怎麼樣？

我一直在 Cloudflare Workers 上建立 MCP 伺服器（我在這裡寫過相關文章），我一直在想：為什麼 RAG 不能完全在邊緣執行？

傳統設定步驟太多了：

User → App Server → OpenAI (embeddings) → Pinecone (search) → User

每次網路躍點都會增加延遲。每項服務都會增加成本。

如果我們改用這種方法呢：

User → Cloudflare Edge (embeddings + search + response) → User

所有功能都集中在一個地方。無需往返傳輸資料。沒有閒置伺服器白白浪費資金。

建築：一切並置

這是我搭建的：

向量化 MCP 工作進程- 一個處理以下任務的 Cloudflare 工作進程：

嵌入生成（Workers AI）
向量搜尋（向量化）
結果格式化（內部員工）
身份驗證（內建）

整個技術堆疊執行在 Cloudflare 在全球 300 多個城市的邊緣伺服器上。

技術堆疊

Workers AI ： bge-small-en-v1.5模型（384 維嵌入）
Vectorize ：Cloudflare 的託管向量資料庫（HNSW 索引）
TypeScript ：完全類型安全
HTTP API ：可從任何地方使用

核心程式碼（簡化版）

搜尋端點：

async function searchIndex(query: string, topK: number, env: Env) {
  const startTime = Date.now();

  // Generate embedding (runs on-edge)
  const embeddingStart = Date.now();
  const embedding = await env.AI.run("@cf/baai/bge-small-en-v1.5", {
    text: query,
  });
  const embeddingTime = Date.now() - embeddingStart;

  // Search vectors (also on-edge)
  const searchStart = Date.now();
  const results = await env.VECTORIZE.query(embedding, {
    topK,
    returnMetadata: true,
  });
  const searchTime = Date.now() - searchStart;

  return {
    query,
    results: results.matches,
    performance: {
      embeddingTime: `${embeddingTime}ms`,
      searchTime: `${searchTime}ms`,
      totalTime: `${Date.now() - startTime}ms`
    }
  };
}

就是這樣。無需複雜的編排，無需服務網格，只需 Workers AI + Vectorize。

可組合MCP架構實踐

最近關於企業 MCP 的討論（ Workato 的優秀系列）強調，大多數實作失敗的原因是暴露了原始 API 而不是可組合的技能。

簡單MCP實作的問題

許多團隊透過封裝現有 API 來建置 MCP 伺服器：

get_guest_by_email
get_booking_by_guest
create_payment_intent
charge_payment_method
send_receipt_email
總共47種工具

LLM 每個任務必須協調 6 次以上的 API 呼叫。結果：速度慢、容易出錯、使用者體驗不佳。

可組合方法

相反，這位員工展現了與使用者意圖相符的高水準技能：

semantic_search - 尋找相關資訊
intelligent_search - 基於人工智慧合成的搜尋

一次工具呼叫，即可獲得完整結果。後端處理所有複雜操作。

九大企業模式

此實作遵循了 9 種建議的企業 MCP 模式中的 8 種：

1. 業務辨識碼優先於系統 ID

// Users search with natural language
{ "query": "How does edge computing work?" }

// Not with database IDs
{ "vector_id": "a0I8d000001pRmXEAU" }

2. 原子能操作

一次工具呼叫即可處理整個工作流程：

生成嵌入（Workers AI）
搜尋向量（向量化）
格式化結果
回報績效指標

無需多步驟編排。

3. 智慧預設設定

{
  "query": "required",
  "topK": "defaults to 5"  // Reduce cognitive load
}

4. 內建授權

// Production mode requires API key
// Dev mode allows testing without auth
// Tools are automatically scoped
if (env.API_KEY && !isAuthorized(request)) {
  return new Response("Unauthorized", { status: 401 });
}

5. 錯誤文件

每個錯誤都包含可操作的提示：

{
  "error": "topK must be between 1 and 20",
  "hint": "Adjust your topK parameter to a value between 1-20"
}

6. 可觀察的性能

每個請求都內建了計時功能：

{
  "performance": {
    "embeddingTime": "142ms",
    "searchTime": "223ms",
    "totalTime": "365ms"
  }
}

7. 自然語言對齊

工具名稱與人們實際說話的方式相符：

搜尋 X → semantic_search
不是“query_vector_database_with_cosine_similarity”

8. 防禦性組成

/populate端點是冪等的－可以安全地多次呼叫。

基準比較

企業級可組合設計（來自 Workato 的基準測試）：

反應時間：2-4秒
成功率：94%
所需工具：12件
每個任務的呼叫次數：1.8

此實作方式：

反應時間： 365毫秒（速度提升6-10倍）
成功率： ~100% （確定性）
所需工具： 2 件（最少）
每個任務的呼叫次數： 1 （一次性）

差別在於：邊緣部署 + 適當的抽象。

架構原則

遵循 Workato 的指導：

“讓LLM處理意圖，讓後端處理執行。”

LLMs職責（非確定性）：

了解使用者查詢
選擇語義搜尋還是智慧搜尋
為使用者解讀結果

後端職責（確定性）：

可靠地產生嵌入
原子地查詢向量
優雅地處理錯誤
確保性能穩定
管理身份驗證

這種分離創造了可靠、快速、使用者友好的 MCP 工具，而不是脆弱的 API 封裝器。

結果：更好更便宜

性能（實際生產資料）

我於2024 年 12 月 23 日從尼日利亞哈科特港到 Cloudflare 的邊緣伺服器進行了測試：

| 操作 | 時間 |

|-----------|------|

| 嵌入生成 | 142毫秒 |

| 向量搜尋 | 223毫秒 |

| 回應格式 | <5毫秒 |

|總計| 365毫秒|

注意：效能會因地區和負載而異。這些是生產部署的實際測量結果。

成本分析（實際使用情況）

每天搜尋量達到 10,000 次（每月 300,000 次）：

我的解決方案：

工人：約 3 美元/月（以 CPU 使用時間計費）
Workers AI：每月約 3-5 美元（以每 1000 個神經元 0.011 美元計算）
向量化：約 2 美元/月（查詢維度）
總計：每月 8-10 美元

傳統替代方案（以相同容量估算）：

松果標準套餐：每月 50-70 美元（最低消費 + 使用費）
Weaviate Cloud：每月 25-40 美元（取決於儲存空間）
自架 pgvector：每月 40-60 美元（伺服器 + 維護）

節省金額：依所選方案的不同，節省金額可達 85-95% 。

免費版內容非常慷慨

Cloudflare 的免費方案涵蓋以下內容：

每天 10 萬個工人請求
每天 10,000 個 AI 神經元
每月 3000 萬次 Vectorize 查詢

大多數副業專案和小型企業都不會升級到免費套餐。

產品特性（因為這不僅僅是一個演示版）

1. 身份驗證

// Optional API key for production
if (env.API_KEY && !isAuthorized(request)) {
  return new Response("Unauthorized", { status: 401 });
}

開發模式無需身份驗證，生產環境則需要。就這麼簡單。

2. 效能監控

每個回應都包含時間資訊：

{
  "query": "edge computing",
  "results": [...],
  "performance": {
    "embeddingTime": "142ms",
    "searchTime": "223ms", 
    "totalTime": "365ms"
  }
}

無需單獨的APM工具，它已內建。

3. 自文件化 API

點選GET /取得完整 API 文件：

{
  "name": "Vectorize MCP Worker",
  "endpoints": {
    "POST /search": "Search the index",
    "POST /populate": "Add documents",
    "GET /stats": "Index statistics"
  }
}

4. CORS 支持

已預先配置好，適用於 Web 應用程式。開箱即用。

我見過的成功用例

內部文件搜尋

一家擁有 50 名員工的新創公司，文件分散在 Notion、Google Docs 和 Confluence 等平台。

之前：人工搜尋。員工每天浪費 30 分鐘去找答案。

之後：語意搜尋可在幾秒鐘內找到正確的文件。

費用：每月 5 美元（相比之下，Algolia DocSearch 的費用為 70 美元）

客戶支援知識庫

擁有 500 篇支援文章的 SaaS 產品。

之前：關鍵字搜尋遺漏了相關文章。

之後：人工智慧搜尋推薦完美匹配。

費用：每月 10 美元（相較之下，企業級解決方案每月費用超過 200 美元）

研究助理

學術論文，包含 1000 個 PDF 檔案。

之前：使用 Ctrl+F 逐一文件尋找。

之後：對整個庫進行語義查詢。

費用：每月 8 美元

我學到了什麼

哪些方法有效？

1. 邊緣優先架構具有變革性

將所有資源集中部署在網路邊緣，消除了網路躍點。性能提升立竿見影，且可衡量。

2. 可組合工具設計優於 API 封裝器

暴露高級技能而非原始 API 使系統速度更快、可靠性更高。 LLM 關注的是意圖，而非編排。

3. 無伺服器定價模式改變了一切

當您無需為閒置伺服器付費時，您可以自由地進行各種實驗。週五上線，使用量激增？沒問題。它會自動擴展。

4. 簡單的HTTP勝過花俏的SDK

沒有版本衝突，沒有依賴地獄，只需curl或fetch即可。支援 Python、Node、Go 等多種程式語言。

還有什麼比這更好呢？

1. 本地開發很不方便

Vectorize 在wrangler dev中不起作用。您必須部署才能測試搜尋功能。權衡之處在於：其他所有功能迭代速度快，但需要部署才能進行完整測試。

2. 知識庫更新需要重新部署

目前，您需要編輯程式碼並重新部署。未來計畫：動態上傳 API。權衡：安全性與便利性。

3. 384 個維度可能不足以滿足特定領域的需求。

bge-small-en-v1.5模型非常適合一般文字。醫療或法律領域可能需要更大的模型。需要權衡的是：速度與精度。

成本比較詳情

方法：所有成本均以每天 10,000 次搜尋（每月 300,000 次）和儲存 10,000 個 384 維向量的情況估算。

| 解決方案 | 月費 | 備註 |

|----------|-------------|-------|

|此工人| 8-10 美元| Cloudflare 公佈的價格 |

松果標準款 | 50-70 美元 | 最低消費 50 美元 + 使用費 |

| Weaviate Serverless | 25-40 美元 | 按使用量計費 |

| 自架 + pgvector | $40-60 | 伺服器 + 維護 |

價格截至2024年12月。您的實際費用可能會因使用情況而異。

如何自行部署

它是開源的： https://github.com/dannwaneri/vectorize-mcp-worker

5分鐘即可完成設定：

# Clone
git clone https://github.com/dannwaneri/vectorize-mcp-worker
cd vectorize-mcp-worker
npm install

# Create vector index
wrangler vectorize create mcp-knowledge-base --dimensions=384 --metric=cosine

# Deploy
wrangler deploy

# Set API key for production
openssl rand -base64 32 | wrangler secret put API_KEY

# Populate with your data
curl -X POST https://your-worker.workers.dev/populate \
  -H "Authorization: Bearer YOUR_KEY"

# Search
curl -X POST https://your-worker.workers.dev/search \
  -H "Authorization: Bearer YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"query": "your question", "topK": 3}'

線上示範： https://vectorize-mcp-worker.fpl-test.workers.dev