小編精選 - 技術文章翻譯 · 09月12日

觀察與學習：Google AI 多模態挑戰賽參賽作品

我建造了什麼

我發展了 Look & Learn，一個語言學習者的應用程式。這款應用程式會產生一張包含有趣場景的圖片。然後，它會用你正在學習的語言向你提問一些關於圖片的問題。對於初級程度的用戶，所有問題都是選擇題。對於中級和高級水平的用戶，你需要手動輸入答案。

示範

嘗試在這裡查看和學習

截圖：

“Look & Learn” 開始介面截圖。在這裡，使用者可以選擇自己使用的語言、想要學習的語言以及自己的流暢度。底部有一個按鈕，可以讓他們開始測驗。

圖片顯示了一道選擇題，使用者選錯了答案。錯誤答案以紅色高亮顯示，正確答案則以綠色顯示。底部會顯示使用者母語的解釋。

中級荷蘭語測驗的截圖：

螢幕截圖顯示了一個用戶必須輸入答案的問題。底部有一則訊息，表示使用者回答正確，但存在動詞變位相關的語法問題，並對此進行了解釋。

我該如何使用 Google AI Studio

我想看看在盡可能少手動修改程式碼的情況下，我能把 Google AI Studio 發揮到什麼程度。雖然我對氛圍編碼持懷疑態度，但我覺得這次挑戰是一個值得嘗試的有趣機會。所以我主要寫了提示，並用自然語言給予模型回饋。

多模態特徵

測驗開始時，應用程式要麼使用 Imagen 產生有趣的圖片，要麼從 Google Cloud Storage 取得現有的圖片。目前，80% 的情況下會使用已儲存的圖片。然後，它會使用 Gemini-2.5-flash 產生關於圖片的問題，並輸入生成的圖片以及包含問題指南和用戶流暢程度的提示。

對於多項選擇題，由於有明確的正確答案，應用程式會立即向用戶提供回饋。對於文字輸入題，我們再次將圖像、問題和使用者的答案一起輸入到 Gemini-2.5-flash，以便評估使用者的正確性以及詞彙和語法的運用。

我還將圖片傳遞給 Gemini-2.5-flash 來產生圖片的 alt 文字。 alt 文字應包含足夠的資訊來回答所有測驗問題。 alt 文字以使用者的母語提供，因此他們仍然需要自行在描述中找到正確答案並進行翻譯。我還嘗試確保所有可能以其他語言出現的元素都具有匹配的lang屬性，以便螢幕閱讀器能夠正確讀取它們。

原文出處：https://dev.to/_bigblind/look-learn-a-google-ai-multimodal-challenge-entry-34lk