2011-10-06 128 views
1

我有一个在100页PDF内指定的约1200个查询(部件号)列表。几乎我需要做的是记录每个查询出现在PDF上的页面。我想不出一个聪明的做法。它应该花费我5-20个小时来搜索这个搜索,所以如果有人能在5小时之前给我一个好主意,那将是非常棒的!通过搜索PDF来记录页码的高效方式

回答

2

以为你能确定什么是“询问”在您的上下文编程从纯文本(例如,通过使用正则表达式):

你可能分裂您的PDF放到不同的文件(每页1个文件)使用PDFTK

http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

然后转换这些文件以PDF格式文本转换工具像这样的文字:

http://www.fileguru.com/PDF-To-TXT-Converter/download

或这一个

http://www.pdf2text.com/

,最后用你喜欢的编程语言,以确定哪些这些文件包含了“查询”(不管这看起来像)自己写一个简单的脚本。

+0

也就是说,其实是一个好主意 –