去年,我使用PDFBox在Java中创建了一个应用程序来获取某些PDF文件中的原始文本,现在我需要将该应用程序移植到C++。是否有一个C++库从PDF文件(如PDFBox for Java)中提取文本?
我想知道什么是最好的C++替代方案来完成我所需要的。
我举个例子的情况下,它可以帮助:
大多数文件将是这样的:http://www.jumbala.net/backup/league.pdf
随着PDFBox的,使用该文件中,每一行读第2页和最多3页会输出一行的所有数据,用空格分隔,而不是像现在一样将它保存在网格中。
所以在第2页第一行有关是这样的:
FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615
或类似的东西,因为有在它们出现的顺序细微的变化,但我不只要关心这个类似的行输出相同,因为我只是解析它们并将我需要的值放入不同的变量中。
因此,了解所有这些,是否有一个库可以在C++程序中使用以获得类似的结果?
编辑:看着sacredFaith的链接http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file并试图后,我越来越喜欢这样一个奇怪的输出,因为我前面提到的示例文件:
http://www.jumbala.net/backup/league.pdf.txt
的部分我真的需要在开始的时候都是奇怪的角色。使用Adobe Acrobat Reader X和使用另存为...文本(访问),我得到以下结果:
http://www.jumbala.net/backup/league_good.pdf.txt
这大约是我在Java中得到使用PDFBox的什么,我想作为输出在C++中。
也许这可以帮助http://stackoverflow.com/questions/3784554/creating-a-pdf-reader-in-c – grifos 2012-03-30 23:08:45
@grifos我看着它,我可能会稍后详细看它,但我宁愿有一个已经制作好的库,因为我不想阅读整个PDF规范文档。不过,您发布的伟大链接,稍后可能会派上用场,谢谢! – 2012-03-31 14:27:15
在链接中,他们还提供了一个关于C++库PoDoFo的功能,它允许您解析pdf并提取信息。 – grifos 2012-03-31 15:14:05