前幾天,百度在 Hugging Face 上發表了一篇博客,介紹了一款最新的輕量級文字識別模型 PP-OCRv5。這篇博客已連續一週登頂 Hugging Face 博客熱度榜首(寫稿時在榜單第二)。
根據博客介紹,該模型僅0.07B參數,以千分之一的參數量實現與72B參數大模型相媲美的OCR精度。
該模型屬於百度開源OCR項目 PaddleOCR 套件中的一部分。截至目前,該項目 Star 數已突破 55k,累計下載量超過 900 萬,在 GitHub 上的項目引用量高達 5.9k,也是 GitHub Star 最高的中國 OCR 項目,流行程度極高。
而作為一名開發者,我比較關心的是:它的實際表現如何?它能在生產環境中解決什麼痛點?OCR 在很多場景下都是剛需,但傳統大模型 OCR 往往部署成本高、硬體要求高。這個號稱“0.07B 參數就能媲美 72B 大模型”的模型,顯然值得我花時間去試試。
從博客內容中看起來,PP-OCRv5 的核心賣點在於兩個方面:輕量、準確。
從工程角度看,它的最大價值是:低資源環境依然能跑得動。不需要頂配 GPU,CPU 環境下也能保持不錯的推理速度。這一點,對於移動端和大規模生產部署來說極具吸引力。
(圖片來源於百度發佈在huggingface上的博客)
根據官方介紹,支持簡體中文、繁體中文、中文拼音、英文、日文五種文字類型,以及手寫、豎版、拼音、生僻字等複雜文本場景的識別。
我就試試中文和英文好了,直接用官方提供的體驗環境,拿一些不同的圖片來進行測試。
中文識別算是 PP-OCRv5 的強項,我拿了一段博客內容截圖進行識別,包含少量英文,幾乎無可挑剔,中文英文識別準確率都非常高。
這是一篇英文博客,也是比較標準的網頁字體,識別無壓力,準確度仍然很高。
我還測試了一些其他的標準字體截圖,準確率都很高,就不一一展示了,沒啥難度。
OK,上點難度朋友們。我直接問我對象要了一份手寫的考公筆記來測試,大家可以放大來看看效果。
沒想到,這麼潦草的手寫體,看了一眼,識別率竟然也超過90%。說實話,有幾個字,我如果不仔細去看,也同樣無法認出,果真是有實力的。
第二張圖片,我也丟給GPT識別了下(模型GPT-5),準確率低很多,且貌似有幻覺產生,出現了一些不知道哪裡來的字。確實差點意思,果然是沒有專業的 OCR 模型準確率高。
整體體驗下來,優勢很明顯:
作為一名開發者,我的結論是,PP-OCRv5 在許多生產場景都已經適用,例如票據識別、文檔掃描、表格 OCR、移動端 OCR、政企應用等。甚至在一些不那麼複雜的手寫字體場景也同樣適用,例如較為工整的手寫筆記、課堂板書,或者比較規整的手寫表格,都能識別得比較穩定。
PP-OCRv5 給我的最大感受是:小模型並不是只能做“玩具”,它在實際工程裡完全能對標大模型。這或許代表了一種趨勢:在特定垂直任務裡,小模型經過精心設計和訓練,可以顛覆大模型的壟斷。
期待 PP-OCR 在未來繼續進步,也推薦每個對 OCR 有需求的人都去試試 PP-OCRv5,不管你是科研党、工作党、還是獨立開發者,它都可能給你帶來驚喜。
開源地址:github.com/PaddlePaddl…
在線體驗地址:aistudio.baidu.com/community/a…