*********這是Google AI Studio 多模式挑戰賽的參賽作品*

💡 靈感

我一直想製作能夠捕捉我混亂想像力的漫畫 - 但是繪畫,擦除,重新開始真是太麻煩了!

>

*此外,人工智慧並沒有提供太多幫助 - 創造 - 挫敗 - 再生 - 重複,但卻無法獲得我的*氛圍🌈 ......👀甚至更加拖累!

好吧,直到✨Gemini nano bannabanana gemini-2.5-flash-image-preview

我對它的編輯功能感到非常震驚,特別是處理**多圖像、多模式輸入的功能**,我不能再讓我懶惰的自己拖延了!

所以,這裡是(快速連結

🪄我建造了什麼

>

🎥示範影片

>

🧩多模式應用架構

>

我如何使用 Google AI Studio

>

我實現的多模態功能

>

🚀我為 UX 建構的特定多模式功能

>

🎉致謝


我建造了什麼

SONICS.ai 🪄 是一款由 Google-AI ✨ 支援的創意套件 🧠 🎬 📚 🎞️,它將用戶的簡單想法轉化為具有播客播放功能的完全實現的、多感官的角色一致的漫畫書體驗。

>

它允許用戶以*自然語言*的方式將自己的*風格/氛圍*🌈加入到漫畫創作的各個方面——從故事情節到人物到場景到對話到文本風格。

>

最棒的是?你不需要擅長繪畫! AI 要⚡分鐘就能幫你解決!

>

您可以將您的創造力變為現實,而不必為了獲得完美的鏡頭而失去*來回再生的**耐心*!

>

您可以將 SONICS 用於各種用途 - 從睡前故事podcastplayback完整製作comics

>

讓您的故事栩栩如生—您的風格!

讓你的想像自由馳騁!


示範

我的專案正在進行中🎥

多模式應用架構

我的專案正在進行中

{% 嵌入 https://www.youtube.com/watch?v=g7aeLYSg7sE

%}

0:00 簡介

0:10 🧠 故事構思

0:20 🎬 角色/演員設計

0:53 🎞️ 漫畫面板創作

1:24 📚 漫畫預覽

1:34 🎧 音訊預覽

1:47 🎥 播放符合您風格的漫畫

▶️在 Youtube 上播放

注意:由於計費限制,我無法部署我的應用程式,所以這是視訊演示👆,展示我的專案執行情況。

多模式應用程式架構

gemini-2.5-flash gemini-2.5-flash-image-preview imagen-4.0 imagen-3.0

>

🧩

>

第一階段

第二階段

第三階段

第四階段


我該如何使用 Google AI Studio

這款應用程式完全基於 Google AI 工作室 ⚡vibe-coded 從零開始建置

👀 您現在可能已經猜到我懶惰的性格了!

我從一個簡單的想法提示開始,透過引導人工智慧解決我在創作具有我的風格的漫畫時遇到的痛點,不斷加入功能。

我實現的多模式功能.....

多模態能力

|輸入

|輸出

|模特兒 ✨

|特點🚀

|

|:-------|:-----|:-------|:------------------------|

| 文字

| 圖片

| gemini-2.5-flash-image-preview

imagen

|*用於高品質角色、場景背景生成

基於文字編輯器的更新*

|

| 圖片 + 文字

| 文字

| gemini-2.5-flash

|基於自然語言的角色編輯的自動角色描述更新

|

| 圖像(蒙版)+圖像+文字

| 圖片

| gemini-2.5-flash-image-preview

|用於人物/場景的精確編輯、對話修正、文字樣式、位置編輯、細節改進

|

| 多張圖片 + 文字

| 帶有渲染文字的合成圖像

| gemini-2.5-flash-image-preview

|用於漫畫場景面板生成,確保場景間角色的一致性、對話的準確性、場景的質量

|


多模態特徵

我建立的特定多模式功能🚀以及它為何增強使用者體驗👤(UX)...

複合場景面板🎞️

imagen gemini-2.5-flash-image-preview gemini-2.5-flash

🚀 漫畫面板是透過智慧合成邏輯建立的,該邏輯結合了模型的多模式功能,可以根據輸入建立最終的面板圖像——場景背景、角色圖像、使用其中任何一個生成的腳本。

👤*這確保了漫畫場景中人物的一致性、對話的準確性以及*場景品質

口味編輯🌈

gemini-2.5-flash-image-preview gemini-2.5-flash

🚀 它用於利用遮罩場景、人物、對話、風格進行精確的外科手術編輯

使用者可以用自然語言簡單地解釋他們對特徵變化的編輯(有/無掩蔽)。

它還處理自動更新的使用者影像編輯請求,這些請求必須反映在各自的策略文字(如角色描述)中,以確保進一步的一致性。

👤*這可以幫助用戶避免反覆從頭生成**圖像,這在我們需要進行一些小的風格/錯誤修正時非常令人沮喪。而且,使用者可以用自然語言將自己的氛圍/風格/風格**加入到場景中,而不必擔心任何不一致。*


🎉

致謝

Google AI Studio ⚡在氛圍編碼方面非常出色。我能夠在不到 6 小時內產生並完成一個運作良好的原型。

但正如您可能已經猜到的那樣👀帕金森定律花費了大部分時間!

gemini-2.5-flash-image-preview ✨ (Gemini nano-banana) 是我整個創意的核心。多虧了 nano-banana,我才能成功創造出連貫的角色漫畫體驗,並解決了氛圍漫畫愛好者反覆刷新和查看氛圍的問題。

>

imagen幫助我為漫畫場景建立了美麗的背景,然後使用複合邏輯將其完全實現。

>

gemini-2.5-flash ✨ 已用於對其他模型的輸入進行快速工程設計、自動更新描述以及優化可交付成果。


謝謝你!

這是一次有趣且很棒的經驗!

👀

什麼絕對不是麻煩事!


原文出處:https://dev.to/ssithub/sonicsai-create-comics-that-speak-your-style-32p8


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝10   💬6   ❤️6
455
🥈
我愛JS
📝1   💬5   ❤️4
95
🥉
AppleLily
📝1   💬4   ❤️1
55
#4
💬1  
5
#5
xxuan
💬1  
3
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次