這款人工智慧可以講述任何歷史照片或影片背後的故事

這是Google AI Studio 多模態挑戰賽的參賽作品

我建造了什麼

我開發了「歷史照片/影片敘事器」 ，這是一款旨在讓歷史重現的互動小程式。這款工具允許用戶上傳歷史照片和影片，生成豐富的人工智慧敘事，揭開隱藏在畫面中的故事。

但它不止於說故事。這款小程式還擁有強大的「重新想像」功能。在了解了圖像的背景（或從影片中截取特定影格）後，使用者可以使用簡單的文字提示來編輯照片。想看看陽光明媚的20世紀20年代的街景會是什麼樣子嗎？或是想為黑白肖像增添一抹亮色？歷史敘述者讓這一切成為可能，在歷史欣賞和創意表達之間架起了一座獨特的橋樑。

核心體驗是將對歷史媒體的被動消費轉變為主動、引人入勝且具有教育意義的旅程，所有創作都保存在瀏覽器中以供將來查看。

示範

{% 嵌入 https://historical-photo-video-narrator-147726047063.us-west1.run.app/ %}

完整視訊示範

為了展示完整的影片處理和幀捕獲功能，這裡有一個專案執行的簡短影片：

{% 嵌入 https://youtu.be/8tojzo0Leds %}

以下是體驗的概述：

1. 上傳您的媒體：該應用程式以乾淨、簡單的介面啟動，用於上傳圖像或影片檔案。

2. 產生敘事：照片上傳後，Gemini 會分析其中的視覺內容，並產生引人入勝的歷史敘事。使用者甚至可以使用內建的文字轉語音功能聆聽故事。

3. 捕捉並重新構想：對於影片，您可以暫停並捕捉特定幀。對於任何影像或捕捉到的幀，您可以輸入文字提示進行修改。

4. 查看結果：該應用程式並排顯示原始圖像和新生成的圖像，立即展示您的創意方向與人工智慧相結合的力量。

原始碼

連結到 Google AI Studio

我該如何使用 Google AI Studio

Google AI Studio 是這個專案的核心，它讓我能夠快速原型化並部署複雜的多模式應用程式。我利用了兩個關鍵的 Gemini 模型：

gemini-2.5-flash ：我選擇這個模型來產生核心敘事，因為它擁有驚人的速度和強大的多模態理解能力。透過向它提供圖像或視訊檔案以及精心設計的系統提示（「您是一位歷史學家，也是一位引人入勝的故事講述者…」），我能夠可靠地生成高品質、情境感知的敘事，從而真正提升源媒體的效果。
gemini-2.5-flash-image-preview ：這個模型是「Re-imagine」功能背後的引擎。它的影像編輯功能非常出色。 API 的實作非常簡單；我將來源圖像和使用者的文字提示傳遞給模型，並配置回應以確保它返回編輯後的圖像。這使得應用程式內成為一個直觀而強大的創意工具。

整個開發和部署過程透過 Google AI Studio 得到簡化，從而能夠有效地從概念轉變為功能齊全、部署良好的小程式。

多模態特徵

該小程式圍繞著兩個核心多模式功能建置，它們協同工作以創造有凝聚力的用戶體驗。

多模態理解（媒體到文字） ：此應用的主要功能是能夠解讀視覺媒體（圖像/影片），並將理解轉化為描述性文字。這不僅是物體偵測，還涉及脈絡、氛圍和歷史推論。

*   **Why it enhances the user experience**: It adds a profound layer of depth and discovery. A static, silent photo is transformed into a gateway to a potential story, making history feel immediate and accessible. It turns a simple gallery viewer into an educational and storytelling tool.

多模態生成（影像 + 文字轉影像） ：「重塑」功能允許在歷史分析的基礎上進行創造性輸入。它採用兩種不同的模態——現有圖像和來自用戶的新文字提示——並將它們合併，產生一個全新的視覺作品。

*   **Why it enhances the user experience**: This fosters a deeper, more personal connection with the media. After learning the story behind a photo, the user is invited to become part of the creative process. This interactive loop of "learn, then create" is incredibly engaging and provides a unique way to explore history and "what if" scenarios visually.

原文出處：https://dev.to/axrisi/this-ai-tells-the-story-behind-any-historical-photo-or-video-451