是否可以使用任何编程语言在PDF中搜索特定的字符串,而无需将其转换为文本或doc文件。我想直接搜索一个字符串而不转换它,我试图将其转换为文本,然后搜索字符串,但它给了我错误的结果。如何使用任何编程语言直接在PDF中搜索字符串
谢谢! 金
是否可以使用任何编程语言在PDF中搜索特定的字符串,而无需将其转换为文本或doc文件。我想直接搜索一个字符串而不转换它,我试图将其转换为文本,然后搜索字符串,但它给了我错误的结果。如何使用任何编程语言直接在PDF中搜索字符串
谢谢! 金
1)创建自己的PDF“分析器”:
http://www.quick-pdf.com/pdf-specification.htm
大概可能是最小的,如果你只需要文本数据,而不是任何的格式。
2)用你自己的语言找到一个能“本地”阅读.pdf的库(其中有很多)。
3)使用预建的工具(如pdf2text或pdfgrep):https://unix.stackexchange.com/questions/6704/grep-pdf-files
如果你的要求是搜索一个词,并取代它,你可以去Aspose.pdf.Kit
Poppler包含的工具从pdf文档中提取文本。用它来搜索文档。
Docotic.Pdf library可用于您的任务。请参阅我的answer for similar question。
声明:我为开发Docotic.Pdf库的公司工作。
在Java和C#中,如果PDF文件没有锁定,可以使用iText来完成。