+ -
当前位置:首页 → 问答吧 → 如何正确的从PDF中读取数据?

如何正确的从PDF中读取数据?

时间:2011-12-28

来源:互联网

最近手头上有一个PDF,需要做一些工作取得该文件里的部分数据。
思路
1.将PDF转换为Excel,解析Excel获取数据
2.使用组件PDFBox,调用函数getText读数据
3.使用组件IText,调用函数GetPageContent读数据

思路1 导出的表格页与页间衔接格式不正确,导致解析起来比较麻烦。
思路2 函数读出的纯文本中格式有问题,数据插行严重。
思路3 函数读出的数据为字节流,解析字节流比较麻烦,并且存在文本格式插行现象。

请问高手有什么好的解决方案能正确(格式正确、无中文乱码)的导出PDF中的数据吗?

作者: haylee2010   发布时间: 2011-12-28

将PDF转换为Excel只能用Adobe Acrobat 9 Pro手動批量轉吧,代碼實現不了

作者: bao22314483   发布时间: 2011-12-28

引用 1 楼 bao22314483 的回复:

将PDF转换为Excel只能用Adobe Acrobat 9 Pro手動批量轉吧,代碼實現不了


哦 我用的工具转的,效果还算理想吧,无乱码现象,可惜得到的Excel格式不正确。
该空行的不空,不该空行的却有空行现象,可能是导出的格式控制不好吧

作者: haylee2010   发布时间: 2011-12-28