🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 08月22日

在內部開發大規模語言模型（LLM）是否更好？

目的

最近，我常聽到「生成式人工智慧開發」這個詞，在公司內部也常聽到這個詞。

然而，我有時覺得這個詞對不同的人有不同的意義。

以下是我的總結。

如果您能理解內部開發的必要性，請給我買一個 GPU。

什麼是生成式人工智慧開發？

我認為它的用途主要有三種：

① 生成型AI的“活用”

這意味著組織可以使用生成式人工智慧來簡化他們的日常工作。

例如，提出需求想法、建立文件和協助編碼。

② 生成型AI的“融合”

對於企業來說，這意味著將生成式人工智慧整合到他們的應用程式和業務系統中。

例如，您可以使用 Openai API 或 Amazon Bedrock 從系統呼叫產生的 AI 並簡化您的業務流程。

③ 生成式人工智慧的發展

這意味著開發生成式人工智慧模型本身。

開發針對特定任務的人工智慧模型，例如透過（持續）預先訓練、微調和強化學習。

補充說明

① 生成型AI的“活用”

這是我們長期以來一直致力於的事情。

我們在公司內部成立了生成式AI推廣團隊，並在整個公司範圍內打造了一個可以使用生成式AI的環境。

如果您想了解更多訊息，請參閱本次研討會。

https://www.youtube.com/watch?v=-hRfrOdDPDw

② 生成式AI的“融合”

這可能是最常見的趨勢，無論是在我們自己的公司還是其他公司。

我們透過將生成式人工智慧整合到客戶的業務系統和流程中來提供新的價值。

這裡通常使用高性能封閉模型（權重未公開且不可調的模型）作為基礎模型。

③ 關於生成式AI的“發展”

我認為這個「發展」又可以分為兩類。

③-① 0->1 產生AI模型的發展（預訓練）

利用大型語料庫建構語言能力、常識和基本推理能力。建構大腦。

透過大規模語料庫的預訓練，賦予AI模型「語言能力+常識+基本技能」。

換句話說，它是構成大腦的部分。

③-② 生成式AI模型的額外訓練
繼續預學習：透過領域文件擴展您的知識、詞彙和基礎技能
微調：學習行為，例如遵循指示、語氣和安全政策

對於③-①，擁有知識和資本的大公司具有壓倒性的優勢，新進入者似乎沒有什麼優勢（因為這需要花費大量的時間和金錢）。

但是，我相信③-②將來會成為內部開發的必備技能。

為什麼內部開發生成式人工智慧更好？

這裡，生成式AI相當於語言模型（LM）。進一步的發展是指「 ③-② 生成式AI模型的補充學習」。

例如，假設您有以下要求：

這次，我們將使用 ChatGPT 和 Claude 等封閉的大規模模型與我們自己的內部開發進行比較。

[要求]

我們在公司內部收到大量詢問，因此我們希望使用生成式人工智慧來有效地處理它們。

-> 想要以固定格式進行總結或提取特定訊息，效率高，可重複性高

【直接使用大型模型時】

每個提示必須包含業務假設、術語和輸出格式（上下文學習/未來鏡頭）

→ 提示變得更長，輸入/輸出令牌和延遲增加

透過 API 使用時，費用會根據令牌數量而增加

使用 API 存在限制

→ 透過API使用時，有基於令牌數量和服務配額的計費方式等限制。

模型規模超過數千億個參數

→ 推理需要大量 GPU 資源，答案產生速度較慢

未針對任務進行最佳化

→ 輸出格式不一致，答案不一。

提示被傳送到網絡

→ 提示不能包含敏感訊息

【使用開發模型時】

透過學習業務知識、術語和輸出格式，可以將模型內化。

→ 無需在每個提示中包含假設和格式，並且減少了標記，從而改善了成本和延遲

由於可以在獨立的環境中使用，因此成本不會根據令牌的數量而增加。

透過 API 使用不受限制

→ 因為可以在內部使用，所以沒有基於令牌數量的計費方式或服務配額。

特定任務的架構可以小型化到數億到數十億個參數。

→ 減少 GPU 資源需求、縮短回應時間並提高吞吐量

針對任務進行了優化

→ 輸出格式已經學會了，所以答案會一致。

由於它是專有模型，因此它可以在封閉的網路環境中執行。

→ 無限制機密資訊分享

總而言之，它看起來像這樣

| 專案 | 大規模語言模型（原樣使用） | 開發模型（內部最佳化）|

|------|-----------------------------------|---------------------------|

| 處理假設、術語和輸出格式 |每次加入提示（在上下文/少量樣本中）→使用更長的輸入增加標記/延遲 |透過學習內化→無需每次都指定，減少標記以改善成本/延遲 |

| API 限制和費用 | 供應商限制，例如令牌費用和服務配額|無按次付費 API 費用 / 內部控制（將產生內部基礎設施的計算成本）|

| 模型規模與推理資源 |千億級參數→ GPU 大，響應慢| 可縮減至數億到數十億→ GPU 小，響應快|

| 任務最佳化/輸出一致性 |通用且未最佳化→格式不確定且易波動|任務專用→格式已學習且一致性高|

| 資料傳輸/安全 |假定外部傳輸→不太可能包含機密資訊 | 可以封閉網路/本地操作→可以安全處理機密資訊 |

| 吞吐量/操作 | 長提示和大規模增加延遲| 緊湊的尺寸提高了吞吐量並減少了響應時間|

至此，我已經刻意強調了這種發展模式的優點，但當然也有缺點。

基本前提是我們必須培養LLMs學位。

持續的預訓練、微調、強化學習等都會產生前期成本。

然而，一些行業需要特定的領域知識、強大的安全性和高吞吐量。

在這種情況下，能夠開發和調整模型將成為貴公司的優勢。

（補充資料）RAG 或 MCP 不是很好嗎？

RAG和MCP可以說是外部知識和功能擴展部分。

兩者都是強大的功能，但我認為它們與本文的本質是不同的。

我認為選擇最佳模型後使用這些部件將使您能夠最大限度地發揮其效力。

結論

當大規模模型+提示/RAG超出性能、成本或約束的可接受值時，開發LLM（持續預訓練、微調、蒸餾和小型化）變得合理。

當同時滿足高吞吐量、低延遲、嚴格結構化輸出和閉域操作的要求時，它尤其有價值。

我認為儘早累積 LLM 開發知識是值得的。

將來，每家公司自訂自己的LLM可能會成為一種普遍現象。

有一個 GPU 非常適合這樣的開發。

價格約4000美元。

你能買一個給我嗎？

原文出處：https://qiita.com/eiji-noguchi/items/dfedf2cf47eaa12a2e4a

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 68瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝28 💬4 ❤️7

840

🥈

我愛JS

📝2 💬8 ❤️2

113

🥉

御魂

💬1

酷豪

ertclee

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次