生成式人工智慧的格局正在改變。雖然專有API功能強大,但對開放模型(即架構和權重公開可用的模型)的需求日益增長。這種轉變將控制權重新交還給開發者,從而提供透明度、資料隱私以及針對特定用例進行微調的能力。
為了幫助您了解這一領域,我們發布了兩個新的實踐實驗室,其中重點介紹了Gemma 3 ,這是 Google 最新推出的輕量級、最先進的開放模型系列。
Gemma 模型基於與 Gemini 相同的研究和技術建置,旨在促進負責任的 AI 開發。 Gemma 3 尤其令人振奮,因為它提供多模態功能(文字和圖像),並且在佔用更少硬體資源的同時,還能提供強大的效能。
但是,在筆記型電腦上執行模型與在生產環境中執行模型截然不同。你需要規模、可靠性和硬體加速(GPU)。問題是:你應該部署在哪裡?
我們根據您的基礎設施需求,為您準備了兩條不同的路徑: Cloud Run或Google Kubernetes Engine (GKE) 。
最適合:希望 API 能夠立即啟動並執行,無需管理基礎設施,並且在不使用時可以縮減到零的開發人員。
如果您優先考慮無狀態工作負載的簡易性和成本效益,Cloud Run 是您的理想之選。它完全抽象化了伺服器管理。隨著 Cloud Run 最近新增了 GPU 支持,您現在無需配置叢集即可執行現代 LLM。
{% 卡 %}
實驗室: 在 Cloud Run 上使用 vLLM 提供 Gemma 3 服務
目標:
將vLLM (高吞吐量服務引擎)容器化。
將 Gemma 3 部署到Cloud Run 。
利用GPU加速實現快速推理。
公開一個與 OpenAI 相容的 API 端點。
{% endcard %}
最適合:建構複雜 AI 平台、需要高吞吐量、自訂編排或與更廣泛的微服務生態系統整合的工程團隊。
當您的應用程式從原型階段過渡到高流量生產系統時,您需要對 Kubernetes 進行控制。 GKE Autopilot 不僅能讓您擁有這種控制力,還能處理繁重的節點管理工作。這條路徑可實現從本地測試到雲端生產的無縫過渡。
{% 卡 %}
實驗: 在 GKE 上部署開放模型
在本實驗中,你將學習如何:
使用Ollama在本地進行原型設計。
將您的設定容器化並過渡到GKE Autopilot 。
使用標準 Kubernetes 清單部署可擴充的推理服務。
有效管理生產工作負載的資源。
{% endcard %}
無論您是想要 Cloud Run 的無伺服器簡易性,還是 GKE 的強大編排功能,Google Cloud 都能提供將 Gemma 3 從概念變為已部署應用程式所需的工具。
立即進入實驗室,開始建置:
使用話題標籤#ProductionReadyAI分享你的學習進度,並與同儕交流。祝你學習愉快!
這些實驗室是我們官方「Google Cloud 生產級 AI 」專案中「開放模型」模組的一部分。探索完整課程,獲得更多內容,幫助您將前景廣闊的原型轉化為生產級 AI 應用。
原文出處:https://dev.to/googleai/hands-on-with-gemma-3-on-google-cloud-6e7