這是Google AI Studio 多模態挑戰賽的參賽作品

我建造了什麼

我開發了「歷史照片/影片敘事器」 ,這是一款旨在讓歷史重現的互動小程式。這款工具允許用戶上傳歷史照片和影片,生成豐富的人工智慧敘事,揭開隱藏在畫面中的故事。

但它不止於說故事。這款小程式還擁有強大的「重新想像」功能。在了解了圖像的背景(或從影片中截取特定影格)後,使用者可以使用簡單的文字提示來編輯照片。想看看陽光明媚的20世紀20年代的街景會是什麼樣子嗎?或是想為黑白肖像增添一抹亮色?歷史敘述者讓這一切成為可能,在歷史欣賞和創意表達之間架起了一座獨特的橋樑。

核心體驗是將對歷史媒體的被動消費轉變為主動、引人入勝且具有教育意義的旅程,所有創作都保存在瀏覽器中以供將來查看。

示範

{% 嵌入 https://historical-photo-video-narrator-147726047063.us-west1.run.app/ %}

完整視訊示範

為了展示完整的影片處理和幀捕獲功能,這裡有一個專案執行的簡短影片:

{% 嵌入 https://youtu.be/8tojzo0Leds %}

以下是體驗的概述:

1. 上傳您的媒體:該應用程式以乾淨、簡單的介面啟動,用於上傳圖像或影片檔案。

2. 產生敘事:照片上傳後,Gemini 會分析其中的視覺內容,並產生引人入勝的歷史敘事。使用者甚至可以使用內建的文字轉語音功能聆聽故事。

3. 捕捉並重新構想:對於影片,您可以暫停並捕捉特定幀。對於任何影像或捕捉到的幀,您可以輸入文字提示進行修改。

4. 查看結果:該應用程式並排顯示原始圖像和新生成的圖像,立即展示您的創意方向與人工智慧相結合的力量。

原始碼

連結到 Google AI Studio

我該如何使用 Google AI Studio

Google AI Studio 是這個專案的核心,它讓我能夠快速原型化並部署複雜的多模式應用程式。我利用了兩個關鍵的 Gemini 模型:

  1. gemini-2.5-flash :我選擇這個模型來產生核心敘事,因為它擁有驚人的速度和強大的多模態理解能力。透過向它提供圖像或視訊檔案以及精心設計的系統提示(「您是一位歷史學家,也是一位引人入勝的故事講述者…」),我能夠可靠地生成高品質、情境感知的敘事,從而真正提升源媒體的效果。

  2. gemini-2.5-flash-image-preview :這個模型是「Re-imagine」功能背後的引擎。它的影像編輯功能非常出色。 API 的實作非常簡單;我將來源圖像和使用者的文字提示傳遞給模型,並配置回應以確保它返回編輯後的圖像。這使得應用程式內成為一個直觀而強大的創意工具。

整個開發和部署過程透過 Google AI Studio 得到簡化,從而能夠有效地從概念轉變為功能齊全、部署良好的小程式。

多模態特徵

該小程式圍繞著兩個核心多模式功能建置,它們協同工作以創造有凝聚力的用戶體驗。

  1. 多模態理解(媒體到文字) :此應用的主要功能是能夠解讀視覺媒體(圖像/影片),並將理解轉化為描述性文字。這不僅是物體偵測,還涉及脈絡、氛圍和歷史推論。
*   **Why it enhances the user experience**: It adds a profound layer of depth and discovery. A static, silent photo is transformed into a gateway to a potential story, making history feel immediate and accessible. It turns a simple gallery viewer into an educational and storytelling tool.
  1. 多模態生成(影像 + 文字轉影像) : 「重塑」功能允許在歷史分析的基礎上進行創造性輸入。它採用兩種不同的模態——現有圖像和來自用戶的新文字提示——並將它們合併,產生一個全新的視覺作品。
*   **Why it enhances the user experience**: This fosters a deeper, more personal connection with the media. After learning the story behind a photo, the user is invited to become part of the creative process. This interactive loop of "learn, then create" is incredibly engaging and provides a unique way to explore history and "what if" scenarios visually.

原文出處:https://dev.to/axrisi/this-ai-tells-the-story-behind-any-historical-photo-or-video-451


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝12   💬6   ❤️5
510
🥈
我愛JS
📝1   💬7   ❤️4
103
🥉
AppleLily
📝1   💬4   ❤️1
58
#4
💬1  
5
#5
xxuan
💬1  
3
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次