這是Google AI Studio 多模態挑戰賽的參賽作品
我建立了StoryWeaver AI ,這是一個由Google Gemini 2.5 Flash提供支援的多模式故事講述網頁應用程式。
該應用程式允許任何人輸入文字、圖像或音訊(單獨或組合) ,並立即將其轉換為帶有簡短敘述腳本的引人入勝的300-400 字的創意故事。
目標很簡單:透過將傳統的故事創作與尖端的人工智慧功能相結合,使講故事變得更容易、更有趣、更有創意。
StoryWeaver AI 使用Flask + TailwindCSS建置,並透過自訂網域和 HTTPS 部署在AWS EC2上,可提供流暢、安全且視覺上吸引人的體驗。
🎥 YouTube 示範:
{% youtube https://youtu.be/lynbJVIjACE %}
🌍直播應用程式→ https://story.praveshsudha.com
🧑💻完整原始碼(在 google-studio-challenge 目錄內導覽) :
{% github https://github.com/Pravesh-Sudha/dev-to-challenges %}
📸截圖
我使用Google AI Studio和Gemini 2.5 Flash模型來處理多模式輸入。透過將 API 整合到我的 Flask 後端,我能夠處理不同形式的內容:
文字提示直接轉化為富有敘事性的故事。
圖像輸入經過解釋,人工智慧根據視覺細節建立故事。
對音訊輸入進行分析,並將上下文編織成一個富有創意的敘述。
這種組合使得應用程式功能多樣且充滿樂趣——用戶可以自由地以他們喜歡的方式與其進行互動。
其突出特點是使用者不再局限於一種輸入方式。他們可以:
僅提供文字以獲得直接講故事的體驗。
提供圖像以獲得基於視覺的敘述。
為基於聲音輸入生成的故事提供音訊。
或將三者結合起來,獲得更豐富、更符合情境的回應。
這種靈活性展現了Gemini 多模式功能的真正實力,使其不僅僅是一個文字產生器,而是一個說故事的夥伴。
幾個世紀以來,故事一直是人類分享思想、文化和想像的預設方式。從洞穴壁畫到史詩,從睡前故事到小說,故事塑造了我們學習、夢想和溝通的方式。
但創作故事並非易事。這正是 AI 的用武之地。有了StoryWeaver AI ,任何人——無論是想像龍的孩子、備課的學生,還是漫不經心的夢想家——都能立即將自己的想法變成現實。
透過將人類創造力與人工智慧多模式理解相結合,我們正在擴展人們表達自我的方式。
StoryWeaver AI 是我展示人工智慧與故事敘述如何完美融合的方式。透過Google Gemini 2.5 Flash的強大功能,該專案凸顯了多模式輸入如何超越純文本,豐富體驗。
✨ 在這裡試試看: https://story.praveshsudha.com
我希望這能激發你去想像,當我們將人工智慧與創造力結合時,會有怎樣的可能性。畢竟— “只要你能想,你就能做!”
🌐 與我聯絡:
🔗 GitHub: Pravesh-Sudha
💼 LinkedIn: Pravesh Sudha
🐦 Twitter/X: @praveshstwt
📺YouTube: @pravesh-sudha