Foxtable(狐表)用户栏目专家坐堂 → 如何将PDF格式里的信息提取到狐表中?


  共有11235人关注过本帖树形打印复制链接

主题:如何将PDF格式里的信息提取到狐表中?

帅哥哟,离线,有人找我吗?
有点甜
  1楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/6/14 17:04:00 [显示全部帖子]

以下是引用hbhb在2018/6/14 16:46:00的发言:
为何读不了 pdf文件里的任何信息?

 

1、你的pdf是图片还是文本?只有文本才能读取;

 

2、试试 http://www.foxtable.com/bbs/dispbbs.asp?boardid=2&id=118014&authorid=0&page=0&star=2

 

3、如果还是不行,pdf文件发上来测试。

 


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  2楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/6/14 17:39:00 [显示全部帖子]


图片点击可在新窗口打开查看此主题相关图片如下:qq截图20180614173819.png
图片点击可在新窗口打开查看

我测试没问题

 

Dim reader As New iTextSharp.text.pdf.PdfReader("d:\20160503021138696.pdf")

Dim n As Integer = reader.NumberOfPages
Dim str As String = ""
For i As Integer = 1 To n
    Dim strategy As object = New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy()
    Dim currentText As String = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(Reader, i, strategy)
   
    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(currentText)))
    str &= currentText
   
Next
msgbox(str)
reader.Close()

 

 


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  3楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/6/14 18:21:00 [显示全部帖子]

回复18楼,你这个是图片,不是文本。要用文本识别的功能。

 

Dim doc = CreateObject("MODI.Document") 
doc.Create("d:\test.jpg")
doc.OCR(2052, True, True)
Dim layout = doc.images(0).Layout
msgbox(layout.text)

 

pdf保存为图片,参考 http://www.foxtable.com/bbs/dispbbs.asp?boardid=2&id=117794&authorid=0&page=0&star=2

 

http://www.foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=104162&skin=0

 

 

[此贴子已经被作者于2018/6/14 18:22:10编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  4楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/6/15 9:09:00 [显示全部帖子]

以下是引用hbhb在2018/6/15 0:13:00的发言:
谢谢!能否来个完整的拿来可用的代码,我要看世界杯!

 

自食其力。需要的知识点都给你的。自己处理。遇到问题再提问。


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  5楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/6/15 18:22:00 [显示全部帖子]

以下是引用hbhb在2018/6/15 18:18:00的发言:
兄弟,看不懂呀,一脚命中的射门代码在哪?

 

1、pdf另存为图片会做了?

 

2、得到图片后,从图片里面识别文字出来。


 回到顶部