2009-08-29 89 views
0

我想读取一个现有的PDF文件,不仅获得文本,而且格式信息如:字体(粗体,斜体...)和段落...是否有这是一个代码库,是开源还是商业?阅读现有的PDF格式的所有文件信息

我在Windows上,喜欢C#库,但C/C++也是可以接受的。

+0

什么语言?环境? – 2009-08-29 14:11:03

回答

1

我可以很推荐 的PDFlib(http://www.pdflib.com/)。 它的商业,但它也有一个精简版,你可以私下使用。它包含非常多的muach功能,可用于所有平台。

0

我会在此回应梅耶斯先生。似乎有一些他们;在您喜爱的搜索引擎中搜索“pdf解析器库”(加上您的语言)。

几个排名靠前:

http://www.lowagie.com/iText/

http://metacpan.org/pod/PDF::Parse

http://podofo.sourceforge.net/

http://www.vicman.net/download/13733/(数为.NET)

需要注意的是,如果你想编辑现有的PDF,你可能想读这个:

http://1t3xt.info/tutorials/faq.php?branch=faq.pdf_in_general&node=replace_word

+0

感谢TrueWill,我之前搜索过,发现其中一些可能在创建PDF时具有强大的能力,而解析时却不那么强大,我希望得到一些有经验的人的指导,以便我可以跳到正确的方向而不花费太多时间评估所有这些图书馆。 – 2009-08-29 15:44:32

+0

在阅读你推荐的文章后,我对是否有这样的图书馆感到悲观 – 2009-08-29 15:59:20

0

Pdfium.Net SDK也可以帮助你。通过此API,您可以访问文本,图像和其他对象及其属性的集合。 请注意我在开发此API的公司工作。