1
我有一个在100页PDF内指定的约1200个查询(部件号)列表。几乎我需要做的是记录每个查询出现在PDF上的页面。我想不出一个聪明的做法。它应该花费我5-20个小时来搜索这个搜索,所以如果有人能在5小时之前给我一个好主意,那将是非常棒的!通过搜索PDF来记录页码的高效方式
我有一个在100页PDF内指定的约1200个查询(部件号)列表。几乎我需要做的是记录每个查询出现在PDF上的页面。我想不出一个聪明的做法。它应该花费我5-20个小时来搜索这个搜索,所以如果有人能在5小时之前给我一个好主意,那将是非常棒的!通过搜索PDF来记录页码的高效方式
以为你能确定什么是“询问”在您的上下文编程从纯文本(例如,通过使用正则表达式):
你可能分裂您的PDF放到不同的文件(每页1个文件)使用PDFTK
http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
然后转换这些文件以PDF格式文本转换工具像这样的文字:
http://www.fileguru.com/PDF-To-TXT-Converter/download
或这一个
,最后用你喜欢的编程语言,以确定哪些这些文件包含了“查询”(不管这看起来像)自己写一个简单的脚本。
也就是说,其实是一个好主意 –