這是Google AI Studio 多模態挑戰賽的參賽作品

我建造了什麼

我發展了 Look & Learn,一個語言學習者的應用程式。這款應用程式會產生一張包含有趣場景的圖片。然後,它會用你正在學習的語言向你提問一些關於圖片的問題。對於初級程度的用戶,所有問題都是選擇題。對於中級和高級水平的用戶,你需要手動輸入答案。

示範

嘗試在這裡查看和學習

截圖:

“Look & Learn” 開始介面截圖。在這裡,使用者可以選擇自己使用的語言、想要學習的語言以及自己的流暢度。底部有一個按鈕,可以讓他們開始測驗。

圖片顯示了一道選擇題,使用者選錯了答案。錯誤答案以紅色高亮顯示,正確答案則以綠色顯示。底部會顯示使用者母語的解釋。

中級荷蘭語測驗的截圖:

螢幕截圖顯示了一個用戶必須輸入答案的問題。底部有一則訊息,表示使用者回答正確,但存在動詞變位相關的語法問題,並對此進行了解釋。

我該如何使用 Google AI Studio

我想看看在盡可能少手動修改程式碼的情況下,我能把 Google AI Studio 發揮到什麼程度。雖然我對氛圍編碼持懷疑態度,但我覺得這次挑戰是一個值得嘗試的有趣機會。所以我主要寫了提示,並用自然語言給予模型回饋。

多模態特徵

測驗開始時,應用程式要麼使用 Imagen 產生有趣的圖片,要麼從 Google Cloud Storage 取得現有的圖片。目前,80% 的情況下會使用已儲存的圖片。然後,它會使用 Gemini-2.5-flash 產生關於圖片的問題,並輸入生成的圖片以及包含問題指南和用戶流暢程度的提示。

對於多項選擇題,由於有明確的正確答案,應用程式會立即向用戶提供回饋。對於文字輸入題,我們再次將圖像、問題和使用者的答案一起輸入到 Gemini-2.5-flash,以便評估使用者的正確性以及詞彙和語法的運用。

我還將圖片傳遞給 Gemini-2.5-flash 來產生圖片的 alt 文字。 alt 文字應包含足夠的資訊來回答所有測驗問題。 alt 文字以使用者的母語提供,因此他們仍然需要自行在描述中找到正確答案並進行翻譯。我還嘗試確保所有可能以其他語言出現的元素都具有匹配的lang屬性,以便螢幕閱讀器能夠正確讀取它們。


原文出處:https://dev.to/_bigblind/look-learn-a-google-ai-multimodal-challenge-entry-34lk


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝10   💬6   ❤️11
454
🥈
我愛JS
📝1   💬5   ❤️4
88
🥉
AppleLily
📝1   💬4   ❤️1
47
#4
💬2  
6
#5
💬1  
5
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次