如何正确的从PDF中读取数据?
时间:2011-12-28
来源:互联网
最近手头上有一个PDF,需要做一些工作取得该文件里的部分数据。
思路
1.将PDF转换为Excel,解析Excel获取数据
2.使用组件PDFBox,调用函数getText读数据
3.使用组件IText,调用函数GetPageContent读数据
思路1 导出的表格页与页间衔接格式不正确,导致解析起来比较麻烦。
思路2 函数读出的纯文本中格式有问题,数据插行严重。
思路3 函数读出的数据为字节流,解析字节流比较麻烦,并且存在文本格式插行现象。
请问高手有什么好的解决方案能正确(格式正确、无中文乱码)的导出PDF中的数据吗?
思路
1.将PDF转换为Excel,解析Excel获取数据
2.使用组件PDFBox,调用函数getText读数据
3.使用组件IText,调用函数GetPageContent读数据
思路1 导出的表格页与页间衔接格式不正确,导致解析起来比较麻烦。
思路2 函数读出的纯文本中格式有问题,数据插行严重。
思路3 函数读出的数据为字节流,解析字节流比较麻烦,并且存在文本格式插行现象。
请问高手有什么好的解决方案能正确(格式正确、无中文乱码)的导出PDF中的数据吗?
作者: haylee2010 发布时间: 2011-12-28
将PDF转换为Excel只能用Adobe Acrobat 9 Pro手動批量轉吧,代碼實現不了
作者: bao22314483 发布时间: 2011-12-28
引用 1 楼 bao22314483 的回复:
将PDF转换为Excel只能用Adobe Acrobat 9 Pro手動批量轉吧,代碼實現不了
将PDF转换为Excel只能用Adobe Acrobat 9 Pro手動批量轉吧,代碼實現不了
哦 我用的工具转的,效果还算理想吧,无乱码现象,可惜得到的Excel格式不正确。
该空行的不空,不该空行的却有空行现象,可能是导出的格式控制不好吧
作者: haylee2010 发布时间: 2011-12-28
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28