2013-05-07 74 views
0

我想问一个想想pdf的人。从PDF获取数据到php/html/javascript

所以我想从pdf中得到一些数据,但只能指定数据。是否可以选择从PDF中获得什么?

例如是这样的形象,所以你可以看到,我想从PDF拿出数据: pic http://shrani.si/f/1k/AA/Ph2cBYG/informativna-ponudba-gre.png

感谢

+0

您可以尝试通过OCR或可能与此soloution使其:http://stackoverflow.com/questions/4780697/php-pdf-to-string – PKeidel 2013-05-07 18:46:07

+0

难道这些PDF的电脑制作或扫描? – 2013-05-07 18:49:59

+0

电脑制作的PDF – user2352034 2013-05-07 20:22:26

回答

0

这个问题触摸的两个主要过程:OCR和数据采集(或解析)

OCR代表光学字符识别。该过程将图像转换为文本。如果您的PDF是仅限图片的PDF(没有文本层,如扫描,传真,光栅化等),则必须使用这类软件。如果您的PDF已经包含电子文本数据,您可能会跳过这一步。

智能数据定位和提取的数据捕获标准,例如查找所有其他文本中的特定字段。有专门的软件包和/或分析过程(见我以前的帖子here)。

如果所有的文档都有相同的“区域”包含您的文本,您可以裁剪图像,然后将较小的区域传递到OCR,这反过来会简化您的文本提取逻辑(因为处理的文本较少用)。

伊利亚

+0

你好,谢谢你的回答。我的PDF是电脑制作的,所以不会被扫描。 PDFs总是相同的,只是有些时候只有2-3个数字,有些时候有6-7行数字..所以,我不知道如何捕捉这个数字,不管有多少行.. – user2352034 2013-05-07 20:24:32

+1

计算机生成的PDF也可能是仅限图片或具有文本层,取决于生成器。尝试在Acrobat Reader中打开它并选择或搜索某个值。如果你找到它或者可以选择它,那么你有文字层,'可以'可以跳过OCR部分。根本就不适合文本解析,因为它们没有格式化信息。如果你有一致性,那么写一个简单的解析逻辑就可能在某些可预测的地方寻找数据类型。有时候,即使对于基于文本的PDF,我也会进行OCR +数据捕获,因为更容易与图像对象配合使用。 – 2013-05-07 21:57:33

+0

如果你愿意,给我一些不同的变化,我会测试我的工具。 ilya @ wisetrend.com – 2013-05-07 21:58:25