這是Google AI Studio 多模態挑戰賽的參賽作品

我建造了什麼

MediVision Assistant - 一款人工智慧醫療助手,讓每個人都能獲得醫療援助,尤其是視障人士或有無障礙需求的人士。該應用程式結合了電腦視覺、語音辨識和人工智慧聊天,提供全面的健康監測和幫助。

主要特點:

  • 🖼️ AI 皮膚分析 - 上傳照片和影片,即時評估皮膚狀況

  • 🎨 AI 健康資訊圖表 - 使用 Imagen 4.0 產生專業的醫療資訊圖表

  • 🎤 語音症狀記錄器 - 使用語音轉文字記錄和轉錄健康症狀

  • 💊 藥物掃描儀 - 基於 OCR 的藥物辨識和管理

  • 💬 AI 健康聊天 - 用於健康問題和指導的對話式 AI

  • 🔗 無縫分析與聊天整合 - 根據分析結果繼續與人工智慧對話

  • ♿ 全面支援無障礙功能 - 語音導航、螢幕閱讀器相容性、高對比模式

  • 📱 漸進式 Web 應用程式 - 可離線運作,可安裝在任何裝置上

示範

即時應用程式:https://medivision.omkard.site

GitHub 倉庫:https://github.com/omkardongre/medi-vision-assistant-ai

截圖

主頁儀表板:簡潔、易於存取的儀表板,包含健康摘要和快速操作

圖片描述

皮膚分析:人工智慧皮膚狀況分析,提供詳細見解

圖片描述

圖片描述

語音記錄器:語音轉文字症狀記錄及轉錄

圖片描述

圖片描述

健康聊天:用於解答健康問題的對話式人工智慧

圖片描述

AI 健康資訊圖表:專業醫療資訊圖表

圖片描述

圖片描述

健康記錄

圖片描述

輔助功能:有語音導航的綜合輔助工具列

圖片描述

我該如何使用 Google AI Studio

我廣泛利用 Google AI Studio 來支援多模式功能:

1. Gemini 2.5 Flash 用於皮膚分析(影像+影片)

  • 整合 Gemini 的視覺功能來分析上傳的皮膚照片和影片

  • 提供皮膚狀況、痣、皮疹和其他皮膚問題的詳細評估

  • 支援動態皮膚狀況監測和運動模式的視訊分析

  • 返回結構化的健康洞察,包括置信度評分和建議

  • 支援多種視訊格式(MP4、MOV、AVI、WebM),最大可達 25MB

2. Gemini 2.5 Flash 健康聊天

  • 為對話式人工智慧健康助理提供支持

  • 處理自然語言健康問題並提供基於證據的答复

  • 保持對話上下文以便回答後續問題

3. Imagen 4.0 健康資訊圖表

  • 整合 Google Imagen 4.0,用於產生專業的醫療資訊圖

  • 建立用藥計劃、健康進展圖表和症狀追蹤視覺效果

  • 產生具有專業醫療風格的、可存取的高對比資訊圖表

  • 支援下載和分享AI生成的健康內容

  • 使用最新的 Imagen 進行尖端影像生成

4. 多模式整合

  • 結合文字、圖像、視訊、語音和人工智慧生成的視覺內容,實現全面的健康監測

多模態特徵

🎥 影片+文字分析(皮膚分析頁)

  • 視訊皮膚監測:用戶上傳影片,進行動態皮膚狀況分析和運動模式

  • 症狀記錄:皮膚症狀的影片記錄,用於詳細的醫學評估

🖼️ 圖像 + 文字分析

  • 皮膚照片分析:使用者上傳皮膚狀況照片,Gemini 會對其進行分析,以發現潛在的健康問題

  • 藥物 OCR:掃描藥物標籤和瓶子以提取藥物資訊、劑量和說明

🎤 語音+文字處理

  • 語音症狀記錄器:記錄症狀的音訊描述並將其轉換為結構化文字

  • 語音導航:使用語音命令完成應用程式導航(“回家”,“皮膚分析”,“緊急情況”)

  • 音訊回饋:文字轉語音回應,方便使用者使用

💬 對話式人工智慧

  • 情境健康聊天:人工智慧記住先前的對話並提供個人化的健康指導

  • 無縫分析整合:在任何分析(皮膚、藥物、語音記錄器)之後,用戶可以點擊“與人工智慧助理討論”,繼續對話,並了解其分析結果的完整背景

♿ 無障礙優先設計

  • 相容螢幕閱讀器:完整的 ARIA 標籤和語義 HTML

  • 語音命令:使用語音導航整個應用程式(“皮膚分析”,“藥物掃描儀”,“幫助”)

  • 高對比模式:增強視障使用者的可視性

  • 字體縮放:可調式文字大小,最高可達 300%

  • 鍵盤導航:無需滑鼠即可完成應用程式功能

🎨 AI 產生的視覺內容

  • 健康資訊圖表:Imagen 4.0 產生的專業醫療圖表和時間表

  • 用藥時間表:可視化用藥時間和劑量圖表

  • 進度追蹤:健康里程碑和成就視覺化

  • 症狀圖表:顏色編碼的症狀監測和追蹤圖形

  • 下載並分享:匯出 AI 產生的資訊圖表用於醫療諮詢

🔄 資料集成

  • 健康記錄:所有多模式輸入(視訊、圖像、語音、聊天、資訊圖表)均已儲存和組織

  • 匯出功能:使用者可以匯出他們的健康資料和人工智慧產生的資訊圖表,用於醫療諮詢

  • 視訊儲存:保護視訊分析結果

技術實現

  • 前端:帶有 TypeScript 和 Tailwind CSS 的 Next.js 15

  • AI 整合:Google AI Studio 與 Gemini 2.5 Flash(視訊、圖像、文字、音訊)和 Imagen 4.0(資訊圖表)

  • 語音處理:用於語音轉文字和文字轉語音的 Web Speech API

  • 影像處理:用於影像優化和預處理的 Canvas API

  • 部署:具有自動擴充功能的 Google Cloud Run

  • 資料庫:Supabase,用於健康記錄和用戶資料

  • 可近性:符合 WCAG 2.1 AA 標準,並經過全面測試

影響與可存取性

該計畫展示了人工智慧如何讓每個人都能更容易獲得醫療保健,特別是:

  • 可以完全透過語音導航的視障用戶

  • 老年用戶可能難以適應複雜的介面

  • 依賴語音指令的運動障礙用戶

  • 能夠用自己的語言描述症狀的非母語人士

多模式方法確保健康監測不受傳統輸入方法的限制,使醫療援助真正具有包容性。


專為 Google AI Studio 多模態挑戰賽打造


原文出處:https://dev.to/omkar598/medivision-assistant-13go


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝12   💬6   ❤️5
510
🥈
我愛JS
📝1   💬7   ❤️4
103
🥉
AppleLily
📝1   💬4   ❤️1
58
#4
💬1  
5
#5
xxuan
💬1  
3
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次