canonical_url: https://bebechien.github.io/cozy-corner-future/posts/demystifying-ai-agents-with-turtle-gemma/
描述: ''
已發布:是
標籤:
龜
芽
人工智慧
代理人
標題:用 Turtle 和 Gemma 揭秘 AI 代理
如果你跟我一樣,你對「程式設計」的最初印象可能就是在一台發光的CRT顯示器上看到一個小小的三角形。你輸入FORWARD 100 ,然後看著小烏龜在螢幕上畫出一條線。那感覺簡直太神奇了。你竟然能讓電腦做事。 (另見: Logo(程式語言) )
最近,我透過一個名為Turtle-Gemma的專案,重新發現了人工智慧的這種魔力,它將童年的那種魔力帶到了現代人工智慧領域。
你無需輸入命令,只需點擊瀏覽器中的麥克風圖標,然後說:「嘿,給我畫一顆紅星星。」片刻之後,人工智慧代理就會編寫 Logo 程式碼,執行它,並將你的請求繪製到數字畫布上。

這是一個很有趣的實驗專案,但它的意義遠不止於此:它是理解現代人工智慧「代理」實際工作原理的最有效方法之一。讓我們揭開它的神秘面紗。
將幾種不同的技術無縫連接起來,形成一個完整的系統,這會帶來一種特殊的滿足感。而這正是 Turtle-Gemma 所做的。
從架構來看,這是一個非常簡潔優美的管道:
耳朵: Gradio 網路介面可以捕捉您的語音或文字請求。
大腦: Google的 Gemma 模型接收這些輸入並充當代理。
雙手:一個定制的「無頭」海龜引擎( turtle_engine.py )接收代理的指令,並將它們繪製到 PIL(Python Imaging Library)圖像上。
作為一個創客,我非常喜歡這個。它提醒我們,無需龐大的企業級技術堆疊也能打造出充滿未來感的產品。一個簡潔的 Python 環境、一個開放權重模型和一個簡單的 UI 函式庫,就足以將你的想法轉化為渲染影像。
如果你最近有關注人工智慧領域,你可能聽過「智能體工作流程」或「工具呼叫」這些術語。它們聽起來很複雜,令人望而生畏。通常,它們指的是人工智慧查詢資料庫、解析JSON或取得天氣API等任務——這些任務功能強大,但幾乎不為人所察覺。
Turtle-Gemma 是一個完美的、舒適的工具呼叫視覺化工具。
當你讓 Gemma “畫一顆紅星”時,模型不會直接輸出原始圖像檔案。它需要思考所需的步驟並使用給定的“工具”。在這種情況下,這些工具其實就是move_turtle() 、 turn_turtle() 、 set_pen_state()和set_pen_color() (參考: turtle-gemma/config.py )。
你可以親眼看到人工智慧大聲地進行推理:
使用者想要使用海龜繪圖法繪製一顆紅星。星形是一種多邊形,通常是透過反覆向前移動並旋轉特定角度來繪製的。
工具呼叫 1: set_pen_color("red")
工具呼叫 2: move_turtle(100)
工具呼叫 3: turn_turtle(144)
(重複5次)
透過強制邏輯邏輯模型(LLM)在畫布上輸出物理的、順序的步驟,人工智慧推理的抽象「黑箱」就完全可視化了。如果人工智慧出現幻覺或邏輯錯誤,你不會看到程式碼靜默崩潰——你會看到一個怪異的、不對稱的星形,而不是一個完美的星形。你實際上是在即時觀察模型的思考過程。
當然,因為這是人工智慧試圖在二維空間中導航,所以事情並不總是那麼完美——而這正是樂趣所在。
提示: draw a x-mas tree

有時你會讓AI畫一棵聖誕樹,它會忘記畫樹幹,結果畫出來一個歪歪扭扭的三角形,底部還伸出一條綠線。有時,它可能會搞不清方向,畫出一些奇怪的線條。
這些小小的「錯誤」真是可愛極了。它們提醒我們,語言學碩士並非完美無缺的魔法大腦;它們只是推理引擎,盡力將語言映射到幾何圖形上。
我們花費大量時間使用人工智慧處理嚴肅的任務——撰寫電子郵件、除錯伺服器或解析電子表格。 Turtle-Gemma 則精彩地提醒我們,使用人工智慧進行程式設計仍然可以充滿樂趣。
提示: draw a gangnam style

如果你想親眼看看工具呼叫是如何運作的,或者只是想體驗用語言創造形狀的樂趣,我強烈建議你克隆這個倉庫,啟動 Gradio 應用,然後試一試。
去讓烏龜畫顆星星吧。說不定你會因此而微笑。
原文出處:https://dev.to/googleai/demystifying-ai-agents-with-turtle-gemma-4ajj