🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付

國產神級開源 OCR 模型,登頂全球第一!再次起飛!

就在昨晚,百度正式發布並開源了自研多模態文檔解析模型 PaddleOCR-VL
在最新的 OmniDocBench V1.5 榜單中,它以 92.6 分的綜合成績位列全球第一,是目前唯二突破 90 分的模型。

image.png

發布的幾小時後,它也同時登頂了 Hugging Face 趨勢榜的總榜第一。

更離譜的是,這些成績來自一個只有 0.9B 參數的小模型它實現了對賽道內所有大小模型的全面超越。包括國際主流多模態大模型 GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B,以及OCR領域熱門小模型 MinerU2.5、Dots.OCR、InternVL1.5、MonkeyOCR-Pro-3B、OCRFlux 等。

它在四個核心維度(文本識別、公式識別、表格理解、閱讀順序)上全部 SOTA,全部都是頂尖級別!並且還支持 100 多種語言。

說它是文心4.5的最強衍生模型,我覺得一點都不為過。

所以問題來了:它的實際效果到底如何?它又是如何做到這些成績的?我花了點時間,把幾類“折磨 OCR 的文件”全塞給了它,並簡單研究了一下它的技術報告。

論文篇

我找了一篇論文,挑了幾張元素複雜的頁面,丟給了它幾張論文的截圖,裡面有多欄排版、數學公式、圖表等。

對於這種複雜場景,以往模型的常見症狀:

  • 公式被識成“E=MC平方平方平方”
  • 圖表標題混進正文
  • 閱讀順序亂到讓人懵逼

讓我們看看 PaddleOCR-VL 的輸出結果:

image.png

image.png

PaddleOCR-VL 的輸出結果簡直讓人驚訝,公式被準確地渲染成 LaTeX 格式,圖表標題與正文自動分區,還能識別左右排版並按照閱讀順序進行了輸出

更妙的是,它可以直接輸出結構化的 Markdown 和 JSON 文件,不僅人能看懂,機器也能直接拿來做二次處理。

image.png

這其實是它的核心架構在起作用,它將複雜的文檔解析任務拆解為一個兩階段處理流程:

  • 第一階段,由 PP-DocLayoutV2 執行版面分析與閱讀順序預測;
  • 第二階段,由 PaddleOCR-VL-0.9B 進行細粒度識別,包括文本、表格、公式、圖表等。

image.png

(模型架構圖 - 看不懂沒關係doge)

簡單說,它先去“理解排版邏輯”,然後再去“看圖識字”。這也是它在論文類文檔上能碾壓許多大模型的原因:大模型懂語言,但不懂排版;而 PaddleOCR-VL 正是為版面而生的視覺語言模型

圖表篇

接下來我找了一些帶有圖表的文章內容,那些混合圖表、複雜表格的素材。

image.png

image.png

PaddleOCR-VL 輸出的結果不僅識別了表格結構和內容,還把表格的內容轉換為了數據表格的形式,更加利於後續的二次處理和計算。

這就不得不提到它的另一個亮點:它具備非結構化圖表轉結構化數據的能力。

也就是說,PaddleOCR-VL 不只是識別表格,還能把折線圖、圓形圖這些“視覺元素”直接還原為可計算的表格。這項特性在自動財報分析、智能報表系統中是殺手級的。

手寫篇

最後我拿出了一疊來自某位考公人的手寫筆記,OCR 的噩夢素材:歪斜的字、不規則的圖、重疊的筆跡、模糊的邊角。

image.png

image.png

PaddleOCR-VL 識別出的結果居然也出奇地穩定,幾乎所有的手寫文字都被正確解析,手繪圖片也得以保留,筆跡重疊的地方還能通過視覺編碼器區分層次,非常適合在教育行業進行開發使用。

行業價值

實測下來,我覺得“PDF 之神”這個稱號並不誇張。

它不僅識別文字,更能把雜亂的頁面“翻譯”成規整的結構化數據。

這讓它在很多場景下的價值不止是“看得懂”,而是“能直接被使用”。

  • 金融與商業:自動解析財報、合同、發票、審計報告;
  • 教育與科研:數字化教材、論文、試卷;
  • 媒體出版:復原報刊、雜誌、書籍排版;
  • 政府與檔案管理:文檔電子化、公文結構化提取;

更重要的是,它是完全開源的。PaddleOCR 自2020年開源至今,在 GitHub 上累計有 57.2k Star,被 6k+ 項目使用,累計下載量突破900萬

今年,PaddleOCR 團隊陸續推出了文字識別方案 PP-OCRv5 、文檔解析方案 PP-StructureV3 、關鍵資訊抽取方案 PP-ChatOCRv4 等個項目,這次推出的 PaddleOCR-VL 亮點則是多模態文檔解析。

這些數據足以說明,這是一個經過長期打磨、社區驗證的產業級引擎。

尾聲

以前我總覺得 OCR 只是“識別文字的工具”,但這次我看到的是一個能理解排版邏輯、能恢復語義結構的全能高手。它在文檔處理領域真正做到了“機器讀懂人類格式化思維”的那一步。

當複雜的 PDF、掃描件、手寫稿都能被 AI 自動解析並轉成結構化數據時,人類與機器的信息邊界被再次重寫。

或許在未來,任何複雜的文檔都將不再是靜態的,而是可被理解、可被交流的。

這一次,OCR 不只是識字,它終於開始讀懂世界。

參考鏈接

在線Demo:

Github:github.com/PaddlePaddle/PaddleOCR

技術報告:arxiv.org/pdf/2510.14528

huggingface:huggingface.co/PaddlePaddle/PaddleOCR-VL


原文出處:https://juejin.cn/post/7561747976336605203


精選技術文章翻譯,幫助開發者持續吸收新知。

共有 0 則留言


精選技術文章翻譯,幫助開發者持續吸收新知。
🏆 本月排行榜
🥇
站長阿川
📝26   💬9   ❤️7
656
🥈
我愛JS
📝4   💬13   ❤️7
284
🥉
御魂
💬1  
4
#4
2
評分標準:發文×10 + 留言×3 + 獲讚×5 + 點讚×1 + 瀏覽數÷10
本數據每小時更新一次
🔧 阿川の電商水電行
Shopify 顧問、維護與客製化
💡
小任務 / 單次支援方案
單次處理 Shopify 修正/微調
⭐️
維護方案
每月 Shopify 技術支援 + 小修改 + 諮詢
🚀
專案建置
Shopify 功能導入、培訓 + 分階段交付