這是Google AI Studio 多模態挑戰賽的參賽作品
我開發了「歷史照片/影片敘事器」 ,這是一款旨在讓歷史重現的互動小程式。這款工具允許用戶上傳歷史照片和影片,生成豐富的人工智慧敘事,揭開隱藏在畫面中的故事。
但它不止於說故事。這款小程式還擁有強大的「重新想像」功能。在了解了圖像的背景(或從影片中截取特定影格)後,使用者可以使用簡單的文字提示來編輯照片。想看看陽光明媚的20世紀20年代的街景會是什麼樣子嗎?或是想為黑白肖像增添一抹亮色?歷史敘述者讓這一切成為可能,在歷史欣賞和創意表達之間架起了一座獨特的橋樑。
核心體驗是將對歷史媒體的被動消費轉變為主動、引人入勝且具有教育意義的旅程,所有創作都保存在瀏覽器中以供將來查看。
{% 嵌入 https://historical-photo-video-narrator-147726047063.us-west1.run.app/ %}
完整視訊示範
為了展示完整的影片處理和幀捕獲功能,這裡有一個專案執行的簡短影片:
{% 嵌入 https://youtu.be/8tojzo0Leds %}
以下是體驗的概述:
1. 上傳您的媒體:該應用程式以乾淨、簡單的介面啟動,用於上傳圖像或影片檔案。
2. 產生敘事:照片上傳後,Gemini 會分析其中的視覺內容,並產生引人入勝的歷史敘事。使用者甚至可以使用內建的文字轉語音功能聆聽故事。
3. 捕捉並重新構想:對於影片,您可以暫停並捕捉特定幀。對於任何影像或捕捉到的幀,您可以輸入文字提示進行修改。
4. 查看結果:該應用程式並排顯示原始圖像和新生成的圖像,立即展示您的創意方向與人工智慧相結合的力量。
原始碼
Google AI Studio 是這個專案的核心,它讓我能夠快速原型化並部署複雜的多模式應用程式。我利用了兩個關鍵的 Gemini 模型:
gemini-2.5-flash
:我選擇這個模型來產生核心敘事,因為它擁有驚人的速度和強大的多模態理解能力。透過向它提供圖像或視訊檔案以及精心設計的系統提示(「您是一位歷史學家,也是一位引人入勝的故事講述者…」),我能夠可靠地生成高品質、情境感知的敘事,從而真正提升源媒體的效果。
gemini-2.5-flash-image-preview
:這個模型是「Re-imagine」功能背後的引擎。它的影像編輯功能非常出色。 API 的實作非常簡單;我將來源圖像和使用者的文字提示傳遞給模型,並配置回應以確保它返回編輯後的圖像。這使得應用程式內成為一個直觀而強大的創意工具。
整個開發和部署過程透過 Google AI Studio 得到簡化,從而能夠有效地從概念轉變為功能齊全、部署良好的小程式。
該小程式圍繞著兩個核心多模式功能建置,它們協同工作以創造有凝聚力的用戶體驗。
* **Why it enhances the user experience**: It adds a profound layer of depth and discovery. A static, silent photo is transformed into a gateway to a potential story, making history feel immediate and accessible. It turns a simple gallery viewer into an educational and storytelling tool.
* **Why it enhances the user experience**: This fosters a deeper, more personal connection with the media. After learning the story behind a photo, the user is invited to become part of the creative process. This interactive loop of "learn, then create" is incredibly engaging and provides a unique way to explore history and "what if" scenarios visually.
原文出處:https://dev.to/axrisi/this-ai-tells-the-story-behind-any-historical-photo-or-video-451