Foxtable(狐表)用户栏目专家坐堂 → pdf中获取内容包括表格内容


  共有544人关注过本帖树形打印复制链接

主题:pdf中获取内容包括表格内容

帅哥哟,离线,有人找我吗?
qaz17909
  1楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:777 积分:8874 威望:0 精华:0 注册:2017/1/26 14:38:00
pdf中获取内容包括表格内容  发帖心情 Post By:2024/3/15 21:36:00 [只看该作者]

有个业务需要将pdf中的内容提取出来,pdf中有些字段内容比如编号、时间等,然后pdf中还有表格,需要将表格中的内容也提取出来。

 回到顶部
帅哥哟,离线,有人找我吗?
有点蓝
  2楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:超级版主 帖子:107285 积分:545686 威望:0 精华:9 注册:2015/6/24 9:21:00
  发帖心情 Post By:2024/3/16 8:54:00 [只看该作者]

这个需要自行研究了,网上搜搜iTextSharp的用法

 回到顶部
帅哥哟,离线,有人找我吗?
qaz17909
  3楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:777 积分:8874 威望:0 精华:0 注册:2017/1/26 14:38:00
  发帖心情 Post By:2024/3/17 11:07:00 [只看该作者]

可以提取了,但是发现有些pdf提取后的中文是乱码,这个应该如何解码?上传的两个pdf文档一个正常,一个中文乱码
 下载信息  [文件大小:   下载次数: ]
图片点击可在新窗口打开查看点击浏览该文件:pdf.rar



 回到顶部
帅哥哟,离线,有人找我吗?
有点蓝
  4楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:超级版主 帖子:107285 积分:545686 威望:0 精华:9 注册:2015/6/24 9:21:00
  发帖心情 Post By:2024/3/17 20:45:00 [只看该作者]

去掉这句有没有问题?

pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

如果不行,自己试试不同编码的结果

 回到顶部
帅哥哟,离线,有人找我吗?
qaz17909
  5楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:777 积分:8874 威望:0 精华:0 注册:2017/1/26 14:38:00
  发帖心情 Post By:2024/3/18 9:10:00 [只看该作者]

去掉这句也是不行的,我改了加粗的地方,但是还是不行
pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

 回到顶部
帅哥哟,离线,有人找我吗?
有点蓝
  6楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:超级版主 帖子:107285 积分:545686 威望:0 精华:9 注册:2015/6/24 9:21:00
  发帖心情 Post By:2024/3/18 9:15:00 [只看该作者]

pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))

什么所有红色的地方都改为不同的编码试试。如果不知道pdf到底使用的什么编码,只能自己试试所有编码的组合了

 回到顶部
帅哥哟,离线,有人找我吗?
qaz17909
  7楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:777 积分:8874 威望:0 精华:0 注册:2017/1/26 14:38:00
  发帖心情 Post By:2024/5/9 13:19:00 [只看该作者]

三楼的这个附件是我原先上传的,为什么现在下载下来不能用了?
[此贴子已经被作者于2024/5/9 13:19:40编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
有点蓝
  8楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:超级版主 帖子:107285 积分:545686 威望:0 精华:9 注册:2015/6/24 9:21:00
  发帖心情 Post By:2024/5/9 13:31:00 [只看该作者]

提示什么错误?

 回到顶部
帅哥哟,离线,有人找我吗?
qaz17909
  9楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:三尾狐 帖子:777 积分:8874 威望:0 精华:0 注册:2017/1/26 14:38:00
  发帖心情 Post By:2024/5/9 13:42:00 [只看该作者]

好像又可以了,还有问题,可否用代码将pdf格式的文件,另存为txt文本文件?

 回到顶部
帅哥哟,离线,有人找我吗?
有点蓝
  10楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:超级版主 帖子:107285 积分:545686 威望:0 精华:9 注册:2015/6/24 9:21:00
  发帖心情 Post By:2024/5/9 14:35:00 [只看该作者]

不能的

 回到顶部