就在昨晚,百度正式發布並開源了自研多模態文檔解析模型 PaddleOCR-VL。
在最新的 OmniDocBench V1.5 榜單中,它以 92.6 分的綜合成績位列全球第一,是目前唯二突破 90 分的模型。
發布的幾小時後,它也同時登頂了 Hugging Face 趨勢榜的總榜第一。
更離譜的是,這些成績來自一個只有 0.9B 參數的小模型,它實現了對賽道內所有大小模型的全面超越。包括國際主流多模態大模型 GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B,以及OCR領域熱門小模型 MinerU2.5、Dots.OCR、InternVL1.5、MonkeyOCR-Pro-3B、OCRFlux 等。
它在四個核心維度(文本識別、公式識別、表格理解、閱讀順序)上全部 SOTA,全部都是頂尖級別!並且還支持 100 多種語言。
說它是文心4.5的最強衍生模型,我覺得一點都不為過。
所以問題來了:它的實際效果到底如何?它又是如何做到這些成績的?我花了點時間,把幾類“折磨 OCR 的文件”全塞給了它,並簡單研究了一下它的技術報告。
我找了一篇論文,挑了幾張元素複雜的頁面,丟給了它幾張論文的截圖,裡面有多欄排版、數學公式、圖表等。
對於這種複雜場景,以往模型的常見症狀:
讓我們看看 PaddleOCR-VL 的輸出結果:
PaddleOCR-VL 的輸出結果簡直讓人驚訝,公式被準確地渲染成 LaTeX 格式,圖表標題與正文自動分區,還能識別左右排版並按照閱讀順序進行了輸出。
更妙的是,它可以直接輸出結構化的 Markdown 和 JSON 文件,不僅人能看懂,機器也能直接拿來做二次處理。
這其實是它的核心架構在起作用,它將複雜的文檔解析任務拆解為一個兩階段處理流程:
(模型架構圖 - 看不懂沒關係doge)
簡單說,它先去“理解排版邏輯”,然後再去“看圖識字”。這也是它在論文類文檔上能碾壓許多大模型的原因:大模型懂語言,但不懂排版;而 PaddleOCR-VL 正是為版面而生的視覺語言模型。
接下來我找了一些帶有圖表的文章內容,那些混合圖表、複雜表格的素材。
PaddleOCR-VL 輸出的結果不僅識別了表格結構和內容,還把表格的內容轉換為了數據表格的形式,更加利於後續的二次處理和計算。
這就不得不提到它的另一個亮點:它具備非結構化圖表轉結構化數據的能力。
也就是說,PaddleOCR-VL 不只是識別表格,還能把折線圖、圓形圖這些“視覺元素”直接還原為可計算的表格。這項特性在自動財報分析、智能報表系統中是殺手級的。
最後我拿出了一疊來自某位考公人的手寫筆記,OCR 的噩夢素材:歪斜的字、不規則的圖、重疊的筆跡、模糊的邊角。
PaddleOCR-VL 識別出的結果居然也出奇地穩定,幾乎所有的手寫文字都被正確解析,手繪圖片也得以保留,筆跡重疊的地方還能通過視覺編碼器區分層次,非常適合在教育行業進行開發使用。
實測下來,我覺得“PDF 之神”這個稱號並不誇張。
它不僅識別文字,更能把雜亂的頁面“翻譯”成規整的結構化數據。
這讓它在很多場景下的價值不止是“看得懂”,而是“能直接被使用”。
更重要的是,它是完全開源的。PaddleOCR 自2020年開源至今,在 GitHub 上累計有 57.2k Star,被 6k+ 項目使用,累計下載量突破900萬。
今年,PaddleOCR 團隊陸續推出了文字識別方案 PP-OCRv5 、文檔解析方案 PP-StructureV3 、關鍵資訊抽取方案 PP-ChatOCRv4 等個項目,這次推出的 PaddleOCR-VL 亮點則是多模態文檔解析。
這些數據足以說明,這是一個經過長期打磨、社區驗證的產業級引擎。
以前我總覺得 OCR 只是“識別文字的工具”,但這次我看到的是一個能理解排版邏輯、能恢復語義結構的全能高手。它在文檔處理領域真正做到了“機器讀懂人類格式化思維”的那一步。
當複雜的 PDF、掃描件、手寫稿都能被 AI 自動解析並轉成結構化數據時,人類與機器的信息邊界被再次重寫。
或許在未來,任何複雜的文檔都將不再是靜態的,而是可被理解、可被交流的。
這一次,OCR 不只是識字,它終於開始讀懂世界。
參考鏈接
在線Demo:
Github:github.com/PaddlePaddle/PaddleOCR
huggingface:huggingface.co/PaddlePaddle/PaddleOCR-VL