Foxtable(狐表)用户栏目专家坐堂 → 如何将PDF格式里的信息提取到狐表中?


  共有11159人关注过本帖树形打印复制链接

主题:如何将PDF格式里的信息提取到狐表中?

帅哥哟,离线,有人找我吗?
chen3728060
  11楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:二尾狐 帖子:388 积分:5098 威望:0 精华:0 注册:2013/11/2 0:01:00
回复:(有点色)回复9楼。我测试没有问题。  发帖心情 Post By:2017/3/16 17:10:00 [只看该作者]

难道我的2017正式版有鬼?我新建的项目,引用了 dll,然后就运行上述代码,就黑屏了。你运行出来是什么效果的?截图看看


 回到顶部
帅哥哟,离线,有人找我吗?
有点色
  12楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:超级版主 帖子:13837 积分:69650 威望:0 精华:0 注册:2016/11/1 14:42:00
  发帖心情 Post By:2017/3/16 17:17:00 [只看该作者]

以下是引用chen3728060在2017/3/16 17:10:00的发言:

难道我的2017正式版有鬼?我新建的项目,引用了 dll,然后就运行上述代码,就黑屏了。你运行出来是什么效果的?截图看看

 

你试试不直接msgbox,而是output.show

 


图片点击可在新窗口打开查看此主题相关图片如下:qq截图20170316171705.png
图片点击可在新窗口打开查看

 回到顶部
帅哥哟,离线,有人找我吗?
hbhb
  13楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:狐神 帖子:5054 积分:13025 威望:0 精华:0 注册:2014/5/15 21:34:00
  发帖心情 Post By:2018/6/14 16:46:00 [只看该作者]

为何读不了 pdf文件里的任何信息?

 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  14楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/6/14 17:04:00 [只看该作者]

以下是引用hbhb在2018/6/14 16:46:00的发言:
为何读不了 pdf文件里的任何信息?

 

1、你的pdf是图片还是文本?只有文本才能读取;

 

2、试试 http://www.foxtable.com/bbs/dispbbs.asp?boardid=2&id=118014&authorid=0&page=0&star=2

 

3、如果还是不行,pdf文件发上来测试。

 


 回到顶部
帅哥哟,离线,有人找我吗?
hbhb
  15楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:狐神 帖子:5054 积分:13025 威望:0 精华:0 注册:2014/5/15 21:34:00
  发帖心情 Post By:2018/6/14 17:27:00 [只看该作者]

比如我要把文件中的文字提取出来?

 回到顶部
帅哥哟,离线,有人找我吗?
hbhb
  16楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:狐神 帖子:5054 积分:13025 威望:0 精华:0 注册:2014/5/15 21:34:00
  发帖心情 Post By:2018/6/14 17:28:00 [只看该作者]

 下载信息  [文件大小:   下载次数: ]
图片点击可在新窗口打开查看点击浏览该文件:20160503021138696.rar


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  17楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/6/14 17:39:00 [只看该作者]


图片点击可在新窗口打开查看此主题相关图片如下:qq截图20180614173819.png
图片点击可在新窗口打开查看

我测试没问题

 

Dim reader As New iTextSharp.text.pdf.PdfReader("d:\20160503021138696.pdf")

Dim n As Integer = reader.NumberOfPages
Dim str As String = ""
For i As Integer = 1 To n
    Dim strategy As object = New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy()
    Dim currentText As String = iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(Reader, i, strategy)
   
    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(currentText)))
    str &= currentText
   
Next
msgbox(str)
reader.Close()

 

 


 回到顶部
帅哥哟,离线,有人找我吗?
hbhb
  18楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:狐神 帖子:5054 积分:13025 威望:0 精华:0 注册:2014/5/15 21:34:00
  发帖心情 Post By:2018/6/14 17:59:00 [只看该作者]

那这个文件呢?
 下载信息  [文件大小:   下载次数: ]
图片点击可在新窗口打开查看点击浏览该文件:test.rar


 回到顶部
帅哥哟,离线,有人找我吗?
有点甜
  19楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:版主 帖子:85326 积分:427815 威望:0 精华:5 注册:2012/10/18 22:13:00
  发帖心情 Post By:2018/6/14 18:21:00 [只看该作者]

回复18楼,你这个是图片,不是文本。要用文本识别的功能。

 

Dim doc = CreateObject("MODI.Document") 
doc.Create("d:\test.jpg")
doc.OCR(2052, True, True)
Dim layout = doc.images(0).Layout
msgbox(layout.text)

 

pdf保存为图片,参考 http://www.foxtable.com/bbs/dispbbs.asp?boardid=2&id=117794&authorid=0&page=0&star=2

 

http://www.foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=104162&skin=0

 

 

[此贴子已经被作者于2018/6/14 18:22:10编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
hbhb
  20楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:狐神 帖子:5054 积分:13025 威望:0 精华:0 注册:2014/5/15 21:34:00
  发帖心情 Post By:2018/6/15 0:13:00 [只看该作者]

谢谢!能否来个完整的拿来可用的代码,我要看世界杯!

 回到顶部
总数 25 上一页 1 2 3 下一页