🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 09月19日

MediVision 助手

這是Google AI Studio 多模態挑戰賽的參賽作品

我建造了什麼

MediVision Assistant - 一款人工智慧醫療助手，讓每個人都能獲得醫療援助，尤其是視障人士或有無障礙需求的人士。該應用程式結合了電腦視覺、語音辨識和人工智慧聊天，提供全面的健康監測和幫助。

主要特點：

🖼️ AI 皮膚分析 - 上傳照片和影片，即時評估皮膚狀況
🎨 AI 健康資訊圖表 - 使用 Imagen 4.0 產生專業的醫療資訊圖表
🎤 語音症狀記錄器 - 使用語音轉文字記錄和轉錄健康症狀
💊 藥物掃描儀 - 基於 OCR 的藥物辨識和管理
💬 AI 健康聊天 - 用於健康問題和指導的對話式 AI
🔗 無縫分析與聊天整合 - 根據分析結果繼續與人工智慧對話
♿ 全面支援無障礙功能 - 語音導航、螢幕閱讀器相容性、高對比模式
📱 漸進式 Web 應用程式 - 可離線運作，可安裝在任何裝置上

示範

即時應用程式：https://medivision.omkard.site

GitHub 倉庫：https://github.com/omkardongre/medi-vision-assistant-ai

截圖

主頁儀表板：簡潔、易於存取的儀表板，包含健康摘要和快速操作

圖片描述

皮膚分析：人工智慧皮膚狀況分析，提供詳細見解

圖片描述

語音記錄器：語音轉文字症狀記錄及轉錄

圖片描述

健康聊天：用於解答健康問題的對話式人工智慧

圖片描述

AI 健康資訊圖表：專業醫療資訊圖表

圖片描述

健康記錄

圖片描述

輔助功能：有語音導航的綜合輔助工具列

圖片描述

我該如何使用 Google AI Studio

我廣泛利用 Google AI Studio 來支援多模式功能：

1. Gemini 2.5 Flash 用於皮膚分析（影像+影片）

整合 Gemini 的視覺功能來分析上傳的皮膚照片和影片
提供皮膚狀況、痣、皮疹和其他皮膚問題的詳細評估
支援動態皮膚狀況監測和運動模式的視訊分析
返回結構化的健康洞察，包括置信度評分和建議
支援多種視訊格式（MP4、MOV、AVI、WebM），最大可達 25MB

2. Gemini 2.5 Flash 健康聊天

為對話式人工智慧健康助理提供支持
處理自然語言健康問題並提供基於證據的答复
保持對話上下文以便回答後續問題

3. Imagen 4.0 健康資訊圖表

整合 Google Imagen 4.0，用於產生專業的醫療資訊圖
建立用藥計劃、健康進展圖表和症狀追蹤視覺效果
產生具有專業醫療風格的、可存取的高對比資訊圖表
支援下載和分享AI生成的健康內容
使用最新的 Imagen 進行尖端影像生成

4. 多模式整合

結合文字、圖像、視訊、語音和人工智慧生成的視覺內容，實現全面的健康監測

多模態特徵

🎥 影片+文字分析（皮膚分析頁）

視訊皮膚監測：用戶上傳影片，進行動態皮膚狀況分析和運動模式
症狀記錄：皮膚症狀的影片記錄，用於詳細的醫學評估

🖼️ 圖像 + 文字分析

皮膚照片分析：使用者上傳皮膚狀況照片，Gemini 會對其進行分析，以發現潛在的健康問題
藥物 OCR：掃描藥物標籤和瓶子以提取藥物資訊、劑量和說明

🎤 語音+文字處理

語音症狀記錄器：記錄症狀的音訊描述並將其轉換為結構化文字
語音導航：使用語音命令完成應用程式導航（“回家”，“皮膚分析”，“緊急情況”）
音訊回饋：文字轉語音回應，方便使用者使用

💬 對話式人工智慧

情境健康聊天：人工智慧記住先前的對話並提供個人化的健康指導
無縫分析整合：在任何分析（皮膚、藥物、語音記錄器）之後，用戶可以點擊“與人工智慧助理討論”，繼續對話，並了解其分析結果的完整背景

♿ 無障礙優先設計

相容螢幕閱讀器：完整的 ARIA 標籤和語義 HTML
語音命令：使用語音導航整個應用程式（“皮膚分析”，“藥物掃描儀”，“幫助”）
高對比模式：增強視障使用者的可視性
字體縮放：可調式文字大小，最高可達 300%
鍵盤導航：無需滑鼠即可完成應用程式功能

🎨 AI 產生的視覺內容

健康資訊圖表：Imagen 4.0 產生的專業醫療圖表和時間表
用藥時間表：可視化用藥時間和劑量圖表
進度追蹤：健康里程碑和成就視覺化
症狀圖表：顏色編碼的症狀監測和追蹤圖形
下載並分享：匯出 AI 產生的資訊圖表用於醫療諮詢

🔄 資料集成

健康記錄：所有多模式輸入（視訊、圖像、語音、聊天、資訊圖表）均已儲存和組織
匯出功能：使用者可以匯出他們的健康資料和人工智慧產生的資訊圖表，用於醫療諮詢
視訊儲存：保護視訊分析結果

技術實現

前端：帶有 TypeScript 和 Tailwind CSS 的 Next.js 15
AI 整合：Google AI Studio 與 Gemini 2.5 Flash（視訊、圖像、文字、音訊）和 Imagen 4.0（資訊圖表）
語音處理：用於語音轉文字和文字轉語音的 Web Speech API
影像處理：用於影像優化和預處理的 Canvas API
部署：具有自動擴充功能的 Google Cloud Run
資料庫：Supabase，用於健康記錄和用戶資料
可近性：符合 WCAG 2.1 AA 標準，並經過全面測試

影響與可存取性

該計畫展示了人工智慧如何讓每個人都能更容易獲得醫療保健，特別是：

可以完全透過語音導航的視障用戶
老年用戶可能難以適應複雜的介面
依賴語音指令的運動障礙用戶
能夠用自己的語言描述症狀的非母語人士

多模式方法確保健康監測不受傳統輸入方法的限制，使醫療援助真正具有包容性。

專為 Google AI Studio 多模態挑戰賽打造

原文出處：https://dev.to/omkar598/medivision-assistant-13go

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

0個讚 0留言 32瀏覽

共有 0 則留言

登入之後發表留言

文字內容提供幾種功能：
1) --- 會變成分隔線（上一行必須是空白）
2) # 會變成一級標題
3) ## 會變成二級標題
4) ### 會變成三級標題
5) **粗體文字**會顯示粗體文字
6) ```當第一行與最後一行會顯示程式碼
7) 請搜尋 Markdown 語法，了解各種格式

小編精選 - 技術文章翻譯

精選技術文章翻譯，幫助開發者持續吸收新知。

🏆 本月排行榜

🥇

站長阿川

📝28 💬4 ❤️7

840

🥈

我愛JS

📝2 💬8 ❤️2

113

🥉

御魂

💬1

酷豪

ertclee

評分標準：發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10

本數據每小時更新一次

🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢