感謝您打開這篇文章!
目前我正在利用 GitHub Copilot,致力於開發能提升業務效率的 Web 應用程式。
前一篇文章在這裡
【應用開發】希望減少手動輸入經費申請的新手,嘗試了 OCR,結果竟然能自動化 80%
本篇文章為上述應用的更新篇!
在本篇文章中,我將分享提升 OCR 精度和重新檢視申請流程的過程,並介紹如何將「人也難以辨識的超長收據」進化為能瞬間填寫表單的應用程式!
還有影片,歡迎您看到最後喔!
在之前的篇章中,透過 OCR 我們已經能將經費申請自動化約 80% ,但實際運行後,我感受到現場使用還有很多改善的空間。
因此這次我們專注於改善以下兩點:
在之前的架構中,OCR 處理與表單的反映是以以下方式進行的!
OCR.space API + 瀏覽器預處理(裁切 / 二值化) → 使用正則表達式提取金額・日期・商店候補
這種方法雖然可自動化約 80% ,但對於格式的變化不夠穩健,常會發生商店名稱和金額的誤讀。
因此這次我們切換為Cloud Vision API × Gemini API的組合,更加重視精度與彈性。
這是一個二段式的方式!
我們讓 AI 再次閱讀那些之前無法順暢識別的超長收據。
實際的操作影片請看這裡

【實際上傳的圖片】

透過 Vision × Gemini 的組合,即使是模糊的字符串,也能以文脈來補充正確的店名、金額和日期,形成的數據可達到人為確認的水準並自動輸入到表單中!
這樣一來,我們能夠正確解析格式不同的收據,逐步接近「能讀取任何收據」的實用水平!
隨著 OCR 精度的穩定,
我們開始關注「人操作起來更便利的流程」。
之前的申請後流程幾乎沒做實作。
因此這次更新加入了以下功能...
這些功能的添加使申請到報帳的流程變得更加順暢!
實際的操作影片請看這裡

隨著功能的增強,申請到報帳的流暢度也有所提升!
透過 Gemini 的結合,我逐漸感受到這款應用程式在變得更具可用性!我深刻感受到思考 AI 如何發揮作用是非常重要的!
在向前輩展示這款應用程式時,
我們獲得了關於「圖片的驗證檢查」及「管理者登出時的彈出提示」等細節方面的反饋,希望能進一步打磨這些細節。
我們會持續進行這些改善,並持續進行更新!
原文出處:https://qiita.com/ishikawa_slj/items/d24b88966fbad0174162