🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 09月17日

SONICS.ai 🎬 💥 🎞️ 創作符合角色性格、體現你風格的漫畫

*********這是Google AI Studio 多模式挑戰賽的參賽作品*

💡 靈感

我一直想製作能夠捕捉我混亂想像力的漫畫 - 但是繪畫，擦除，重新開始真是太麻煩了！

*此外，人工智慧並沒有提供太多幫助 - 創造 - 挫敗 - 再生 - 重複，但卻無法獲得我的*氛圍🌈 ......👀甚至更加拖累！

好吧，直到✨Gemini nano bannabanana gemini-2.5-flash-image-preview ！

我對它的編輯功能感到非常震驚，特別是處理**多圖像、多模式輸入的功能**，我不能再讓我懶惰的自己拖延了！

所以，這裡是（快速連結）

🪄我建造了什麼

🎥示範影片

🧩多模式應用架構

⚡我如何使用 Google AI Studio

✨我實現的多模態功能

🚀我為 UX 建構的特定多模式功能

🎉致謝

我建造了什麼

SONICS.ai 🪄 是一款由 Google-AI ✨ 支援的創意套件 🧠 🎬 📚 🎞️，它將用戶的簡單想法轉化為具有播客播放功能的完全實現的、多感官的、角色一致的漫畫書體驗。

它允許用戶以*自然語言*的方式將自己的*風格/氛圍*🌈加入到漫畫創作的各個方面——從故事情節到人物到場景到對話到文本風格。

最棒的是？你不需要擅長繪畫！ AI 要⚡分鐘就能幫你解決！

您可以將您的創造力變為現實，而不必為了獲得完美的鏡頭而失去*來回再生的**耐心*！

您可以將 SONICS 用於各種用途 - 從睡前故事podcast到playback的完整製作comics

讓您的故事栩栩如生—您的風格！

讓你的想像自由馳騁！

示範

我的專案正在進行中🎥

多模式應用架構

我的專案正在進行中

{% 嵌入 https://www.youtube.com/watch?v=g7aeLYSg7sE

0:00 簡介

0:10 🧠 故事構思

0:20 🎬 角色/演員設計

0:53 🎞️ 漫畫面板創作

1:24 📚 漫畫預覽

1:34 🎧 音訊預覽

1:47 🎥 播放符合您風格的漫畫

▶️在 Youtube 上播放

注意：由於計費限制，我無法部署我的應用程式，所以這是視訊演示👆，展示我的專案執行情況。

多模式應用程式架構

gemini-2.5-flash gemini-2.5-flash-image-preview imagen-4.0 imagen-3.0

🧩

我該如何使用 Google AI Studio

這款應用程式完全基於 Google AI 工作室 ⚡vibe-coded 從零開始建置

👀 您現在可能已經猜到我懶惰的性格了！

我從一個簡單的想法提示開始，透過引導人工智慧解決我在創作具有我的風格的漫畫時遇到的痛點，不斷加入功能。

我實現的多模式功能.....

多模態能力

|輸入

|輸出

|模特兒 ✨

|特點🚀

|

|:-------|:-----|:-------|:------------------------|

| 文字

| 圖片

| gemini-2.5-flash-image-preview

imagen

|*用於高品質角色、場景背景生成

基於文字編輯器的更新*

| 圖片 + 文字

| 文字

| gemini-2.5-flash

|基於自然語言的角色編輯的自動角色描述更新

| 圖像（蒙版）+圖像+文字

| 圖片

| gemini-2.5-flash-image-preview

|用於人物/場景的精確編輯、對話修正、文字樣式、位置編輯、細節改進

| 多張圖片 + 文字

| 帶有渲染文字的合成圖像

| gemini-2.5-flash-image-preview

|用於漫畫場景面板生成，確保場景間角色的一致性、對話的準確性、場景的質量

多模態特徵

我建立的特定多模式功能🚀以及它為何增強使用者體驗👤（UX）...

複合場景面板🎞️

✨ imagen gemini-2.5-flash-image-preview gemini-2.5-flash

🚀 漫畫面板是透過智慧合成邏輯建立的，該邏輯結合了模型的多模式功能，可以根據輸入建立最終的面板圖像——場景背景、角色圖像、使用其中任何一個生成的腳本。

👤*這確保了漫畫場景中人物的一致性、對話的準確性以及*場景品質。

口味編輯🌈

✨ gemini-2.5-flash-image-preview gemini-2.5-flash

🚀 它用於利用遮罩對場景、人物、對話、風格進行精確的外科手術編輯。

使用者可以用自然語言簡單地解釋他們對特徵變化的編輯（有/無掩蔽）。

它還處理自動更新的使用者影像編輯請求，這些請求必須反映在各自的策略文字（如角色描述）中，以確保進一步的一致性。

👤*這可以幫助用戶避免反覆從頭生成**圖像，這在我們需要進行一些小的風格/錯誤修正時非常令人沮喪。而且，使用者可以用自然語言將自己的氛圍/風格/風格**加入到場景中，而不必擔心任何不一致。*

🎉

致謝

Google AI Studio ⚡在氛圍編碼方面非常出色。我能夠在不到 6 小時內產生並完成一個運作良好的原型。

但正如您可能已經猜到的那樣👀帕金森定律花費了大部分時間！

gemini-2.5-flash-image-preview ✨ (Gemini nano-banana) 是我整個創意的核心。多虧了 nano-banana，我才能成功創造出連貫的角色漫畫體驗，並解決了氛圍漫畫愛好者反覆刷新和查看氛圍的問題。