Rss & SiteMap

Foxtable(狐表) http://www.foxtable.com

新一代数据库软件,完美融合Access、Foxpro、Excel、vb.net之优势,人人都能掌握的快速软件开发工具!
共10 条记录, 每页显示 10 条, 页签: [1]
[浏览完整版]

标题:pdf中获取内容包括表格内容

1楼
qaz17909 发表于:2024/3/15 21:36:00
有个业务需要将pdf中的内容提取出来,pdf中有些字段内容比如编号、时间等,然后pdf中还有表格,需要将表格中的内容也提取出来。
2楼
有点蓝 发表于:2024/3/16 8:54:00
这个需要自行研究了,网上搜搜iTextSharp的用法
3楼
qaz17909 发表于:2024/3/17 11:07:00
可以提取了,但是发现有些pdf提取后的中文是乱码,这个应该如何解码?上传的两个pdf文档一个正常,一个中文乱码
 下载信息  [文件大小:   下载次数: ]
图片点击可在新窗口打开查看点击浏览该文件:pdf.rar


4楼
有点蓝 发表于:2024/3/17 20:45:00
去掉这句有没有问题?

pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

如果不行,自己试试不同编码的结果
5楼
qaz17909 发表于:2024/3/18 9:10:00
去掉这句也是不行的,我改了加粗的地方,但是还是不行
pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))
6楼
有点蓝 发表于:2024/3/18 9:15:00
pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

什么所有红色的地方都改为不同的编码试试。如果不知道pdf到底使用的什么编码,只能自己试试所有编码的组合了
7楼
qaz17909 发表于:2024/5/9 13:19:00
三楼的这个附件是我原先上传的,为什么现在下载下来不能用了?
[此贴子已经被作者于2024/5/9 13:19:40编辑过]
8楼
有点蓝 发表于:2024/5/9 13:31:00
提示什么错误?
9楼
qaz17909 发表于:2024/5/9 13:42:00
好像又可以了,还有问题,可否用代码将pdf格式的文件,另存为txt文本文件?
10楼
有点蓝 发表于:2024/5/9 14:35:00
不能的
共10 条记录, 每页显示 10 条, 页签: [1]

Copyright © 2000 - 2018 foxtable.com Tel: 4000-810-820 粤ICP备11091905号

Powered By Dvbbs Version 8.3.0
Processed in .02246 s, 3 queries.