PDF跨页表格解析，我把 6 个主流方案挨个测了一遍 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

PDF跨页表格解析，我把 6 个主流方案挨个测了一遍

产品经理伯庸

2026-07-01

0 评论 84 浏览 1 收藏

9 分钟

PDF跨页表格解析的痛点不在OCR识别，而在结构重组。本文通过5类真实场景评测，揭晓文档解析工具、多模态大模型与纯OCR的实战表现差异——Claude以自动生成Excel的惊艳表现夺冠，而私有化部署的MinerU更符合B端落地需求。技术选型的关键在于先锁定数据安全与成本边界。

前几天一个做 IT 的朋友来找我，说他们解析 PDF 跨页表格的时候卡住了。他们第一反应是上 OCR，结果效果稀烂，问我有没有更好的路子。

我做了一轮调研给他，这里把结果脱敏后分享出来。

OCR 识别的坑

朋友团队一上来选 OCR，这不怪他们，挺自然的一个误判——PDF 解析嘛，先把字认出来不就行了？

但跨页表格的难点根本不在「认字」，在结构。它要解决的是两件事：跨页的表格要不要拼成一张，跨页被切断的单元格要不要接回去。

OCR 干的活是把图像里的像素认成字符，它无法判断两页上的表格是不是属于同一个表格。所以你会看到我下面的评测里，纯 OCR 在所有数据上全军覆没——不是字认得不准，是它根本不管这事。

评测集构建

很多人测工具，随手抓几个 PDF 跑一下就下结论。问题是 PDF 跨页表格压根不是一个场景，是一堆场景，不同情况下工具的表现能差出十万八千里。你评测集要是没覆盖到客户的真实场景，结论一上线就翻车。

我按两个维度来拆。

第一个是 PDF 从哪来——原始 PDF，还是扫描件 PDF。这俩对工具来说难度完全不是一回事：原始 PDF 自带文本层，扫描件就是张图，得先过一遍识别。

第二个是有没有干扰——页眉页脚、印章这些。这些玩意儿在真实的业务文档里基本跑不掉，尤其 B 端，合同也好报告也好图纸也好，哪个上面没盖章没页脚？而它们恰恰最容易把工具搞晕，让它认错表格的边界。

这么一组合，我搭了 5 个评测数据：

1. 原始 PDF，无页脚

2. 原始 PDF，含页脚

3. 扫描件 PDF，无页脚

4. 扫描件 PDF，含页脚

5. 扫描件 PDF，含印章

三类方案

第一类，文档解析工具（MinerU、PaddleOCR-VL-1.6）。这类是专门干「看懂文档结构」的，照理说最对口。

第二类，OCR（PP-OCRv6），纯当对照组。我基本料定它会挂。

第三类，多模态大模型（Qwen、DeepSeek、Claude）。它把「看图」和「理解」揉到一块了，值得验一验。

还有一类专门啃原始 PDF 的 Python 库（pdfplumber 那种），我没放进来。一是它们单独处理扫描件还不太行，二是扫描件恰恰是 B 端的主流形态。

评测结果

文档解析工具

MinerU

原始 PDF 和扫描件，不管带不带页脚，都能合并跨页表格、合并跨页单元格。唯一翻车的就是含印章的扫描件——合并失败了。

PaddleOCR-VL-1.6

5 个数据都能合并跨页表格，但跨页的单元格合不上。也就是说大的表格层面对了，更细的单元格还差一点意思。

OCR（对照组）

PP-OCRv6

5 个数据全挂。单元格没合，表格也没整。跟我预判的一样，它就不解决结构这事。

多模态大模型

每个大模型的提示词都只有一句话：识别文件中的表格并输出。

Qwen3.7

大部分场景能合并跨页表格，但有个稳定复现的毛病——合并完的单元格里缺了「往返」俩字。含页脚的原始 PDF 和扫描件还会把表格切成两块。

DeepSeek 识图

原始 PDF 能合并（一样缺「往返」俩字）；可一到扫描件，第二页的表格直接识别不出来，跨页合并更无从谈起。

Claude Opus 4.8

原始 PDF 和含页脚的扫描件，能合并表格、能合并单元格、内容还完整。最狠的是含印章那个评测数据——它直接自动生成了 Excel，跨页表格和单元格全合对了。

一句话：Claude 最好，MinerU 第二，OCR 垫底。大模型里面 Claude 明显甩开一截，Qwen 和 DeepSeek 不光效果差，还不稳定。

B 端落地选哪个

评测分高，跟适合落地，完全是两码事。落地得同时看效果、成本、稳不稳、合不合规。

大模型

效果天花板最高，但有三道坎。

一是效果两极分化。只有头部的（Claude）效果稳，Qwen、DeepSeek 这种会缺字、会漏页，你根本没法跟客户拍胸脯说能到多少准确率。

二是有 token 费用，文档量一上来，这是笔按量算的持续开销，得算进账里。

三是数据出域——你调公有云大模型的 API，等于把客户文档发出去了，B 端客户尤其是涉密的、金融的、政企的，大概率不答应。这一条经常直接把方案毙了，跟你效果好不好半毛钱关系没有。

OCR

这个场景直接出局。

文档解析工具

效果还没到满分，但落地的性价比最高。每天有免费额度，成本扛得住；私有化部署成本低，数据不出域——这一点在 B 端经常比「效果高那么几个点」还管用。代价是当前效果还没好到能直接交付，含有印章的场景会失败，得补点后处理。

所以碰上这类技术选型，先问约束，再看效果。约束——数据能不能出域、成本上限多少、对稳定性要求多高——先圈定了你能选的范围，效果只是在这个范围里排个序。

本文由人人都是产品经理作者【产品经理伯庸】，微信公众号：【AI文如刀】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

产品经理伯庸

公众号「产品经理伯庸」

17篇作品 50264总阅读量

8个“支付清算账户”设计案例

03-2011098 浏览

8个“支付清算账户”设计案例

文心一言入局：国内AI+教育行业发展前瞻与争议

03-296145 浏览

文心一言入局：国内AI+教育行业发展前瞻与争议

品牌调性和设计语境是什么？

11-083090 浏览

品牌调性和设计语境是什么？

如何理解小红书种草？种草最常见的3个错误

07-125363 浏览

如何理解小红书种草？种草最常见的3个错误

元宇宙成时尚品牌营销新宠儿，新兴技术如何革新客户的互动体验？

02-082629 浏览

元宇宙成时尚品牌营销新宠儿，新兴技术如何革新客户的互动体验？

评论

目前还没评论，等你发挥！

中后台工具产品即学即用的交互知识

11-065878 浏览
一文讲清产品设计中的文案表达

05-167311 浏览
直播间“儿子们”是如何通过“温情骗局”俘获老人心的？

03-177216 浏览