這是Google AI Studio 多模態挑戰賽的參賽作品
我發展了 Look & Learn,一個語言學習者的應用程式。這款應用程式會產生一張包含有趣場景的圖片。然後,它會用你正在學習的語言向你提問一些關於圖片的問題。對於初級程度的用戶,所有問題都是選擇題。對於中級和高級水平的用戶,你需要手動輸入答案。
中級荷蘭語測驗的截圖:
我想看看在盡可能少手動修改程式碼的情況下,我能把 Google AI Studio 發揮到什麼程度。雖然我對氛圍編碼持懷疑態度,但我覺得這次挑戰是一個值得嘗試的有趣機會。所以我主要寫了提示,並用自然語言給予模型回饋。
測驗開始時,應用程式要麼使用 Imagen 產生有趣的圖片,要麼從 Google Cloud Storage 取得現有的圖片。目前,80% 的情況下會使用已儲存的圖片。然後,它會使用 Gemini-2.5-flash 產生關於圖片的問題,並輸入生成的圖片以及包含問題指南和用戶流暢程度的提示。
對於多項選擇題,由於有明確的正確答案,應用程式會立即向用戶提供回饋。對於文字輸入題,我們再次將圖像、問題和使用者的答案一起輸入到 Gemini-2.5-flash,以便評估使用者的正確性以及詞彙和語法的運用。
我還將圖片傳遞給 Gemini-2.5-flash 來產生圖片的 alt 文字。 alt 文字應包含足夠的資訊來回答所有測驗問題。 alt 文字以使用者的母語提供,因此他們仍然需要自行在描述中找到正確答案並進行翻譯。我還嘗試確保所有可能以其他語言出現的元素都具有匹配的lang
屬性,以便螢幕閱讀器能夠正確讀取它們。
原文出處:https://dev.to/_bigblind/look-learn-a-google-ai-multimodal-challenge-entry-34lk