🔧 阿川の電商水電行

Shopify 顧問、維護與客製化

💡

小任務 / 單次支援方案

單次處理 Shopify 修正／微調

⭐️

維護方案

每月 Shopify 技術支援 + 小修改 + 諮詢

🚀

專案建置

Shopify 功能導入、培訓 + 分階段交付

👉 瞭解詳情 / 免費諮詢

小編精選 - 技術文章翻譯 · 10月20日

國產神級開源 OCR 模型，登頂全球第一！再次起飛！

就在昨晚，百度正式發布並開源了自研多模態文檔解析模型 PaddleOCR-VL。
在最新的 OmniDocBench V1.5 榜單中，它以 92.6 分的綜合成績位列全球第一，是目前唯二突破 90 分的模型。

發布的幾小時後，它也同時登頂了 Hugging Face 趨勢榜的總榜第一。

更離譜的是，這些成績來自一個只有 0.9B 參數的小模型，它實現了對賽道內所有大小模型的全面超越。包括國際主流多模態大模型 GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B，以及OCR領域熱門小模型 MinerU2.5、Dots.OCR、InternVL1.5、MonkeyOCR-Pro-3B、OCRFlux 等。

它在四個核心維度（文本識別、公式識別、表格理解、閱讀順序）上全部 SOTA，全部都是頂尖級別！並且還支持 100 多種語言。

說它是文心4.5的最強衍生模型，我覺得一點都不為過。

所以問題來了：它的實際效果到底如何？它又是如何做到這些成績的？我花了點時間，把幾類“折磨 OCR 的文件”全塞給了它，並簡單研究了一下它的技術報告。

論文篇

我找了一篇論文，挑了幾張元素複雜的頁面，丟給了它幾張論文的截圖，裡面有多欄排版、數學公式、圖表等。

對於這種複雜場景，以往模型的常見症狀：

公式被識成“E=MC平方平方平方”
圖表標題混進正文
閱讀順序亂到讓人懵逼

讓我們看看 PaddleOCR-VL 的輸出結果：

PaddleOCR-VL 的輸出結果簡直讓人驚訝，公式被準確地渲染成 LaTeX 格式，圖表標題與正文自動分區，還能識別左右排版並按照閱讀順序進行了輸出。

更妙的是，它可以直接輸出結構化的 Markdown 和 JSON 文件，不僅人能看懂，機器也能直接拿來做二次處理。

這其實是它的核心架構在起作用，它將複雜的文檔解析任務拆解為一個兩階段處理流程：

第一階段，由 PP-DocLayoutV2 執行版面分析與閱讀順序預測；
第二階段，由 PaddleOCR-VL-0.9B 進行細粒度識別，包括文本、表格、公式、圖表等。

（模型架構圖 - 看不懂沒關係doge）

簡單說，它先去“理解排版邏輯”，然後再去“看圖識字”。這也是它在論文類文檔上能碾壓許多大模型的原因：大模型懂語言，但不懂排版；而 PaddleOCR-VL 正是為版面而生的視覺語言模型。

圖表篇

接下來我找了一些帶有圖表的文章內容，那些混合圖表、複雜表格的素材。

PaddleOCR-VL 輸出的結果不僅識別了表格結構和內容，還把表格的內容轉換為了數據表格的形式，更加利於後續的二次處理和計算。

這就不得不提到它的另一個亮點：它具備非結構化圖表轉結構化數據的能力。

也就是說，PaddleOCR-VL 不只是識別表格，還能把折線圖、圓形圖這些“視覺元素”直接還原為可計算的表格。這項特性在自動財報分析、智能報表系統中是殺手級的。

手寫篇

最後我拿出了一疊來自某位考公人的手寫筆記，OCR 的噩夢素材：歪斜的字、不規則的圖、重疊的筆跡、模糊的邊角。

PaddleOCR-VL 識別出的結果居然也出奇地穩定，幾乎所有的手寫文字都被正確解析，手繪圖片也得以保留，筆跡重疊的地方還能通過視覺編碼器區分層次，非常適合在教育行業進行開發使用。

行業價值

實測下來，我覺得“PDF 之神”這個稱號並不誇張。

它不僅識別文字，更能把雜亂的頁面“翻譯”成規整的結構化數據。

這讓它在很多場景下的價值不止是“看得懂”，而是“能直接被使用”。

金融與商業：自動解析財報、合同、發票、審計報告；
教育與科研：數字化教材、論文、試卷；
媒體出版：復原報刊、雜誌、書籍排版；
政府與檔案管理：文檔電子化、公文結構化提取；

更重要的是，它是完全開源的。PaddleOCR 自2020年開源至今，在 GitHub 上累計有 57.2k Star，被 6k+ 項目使用，累計下載量突破900萬。

今年，PaddleOCR 團隊陸續推出了文字識別方案 PP-OCRv5 、文檔解析方案 PP-StructureV3 、關鍵資訊抽取方案 PP-ChatOCRv4 等個項目，這次推出的 PaddleOCR-VL 亮點則是多模態文檔解析。

這些數據足以說明，這是一個經過長期打磨、社區驗證的產業級引擎。

尾聲

以前我總覺得 OCR 只是“識別文字的工具”，但這次我看到的是一個能理解排版邏輯、能恢復語義結構的全能高手。它在文檔處理領域真正做到了“機器讀懂人類格式化思維”的那一步。

當複雜的 PDF、掃描件、手寫稿都能被 AI 自動解析並轉成結構化數據時，人類與機器的信息邊界被再次重寫。

或許在未來，任何複雜的文檔都將不再是靜態的，而是可被理解、可被交流的。

這一次，OCR 不只是識字，它終於開始讀懂世界。

參考鏈接

在線Demo:

huggingface.co/spaces/PaddleOCR-VL_Online_Demo

aistudio.baidu.com/application/detail/98365

Github：github.com/PaddlePaddle/PaddleOCR

技術報告：arxiv.org/pdf/2510.14528

huggingface：huggingface.co/PaddlePaddle/PaddleOCR-VL