我想读取一个现有的PDF文件,不仅获得文本,而且格式信息如:字体(粗体,斜体...)和段落...是否有这是一个代码库,是开源还是商业?阅读现有的PDF格式的所有文件信息
我在Windows上,喜欢C#库,但C/C++也是可以接受的。
我想读取一个现有的PDF文件,不仅获得文本,而且格式信息如:字体(粗体,斜体...)和段落...是否有这是一个代码库,是开源还是商业?阅读现有的PDF格式的所有文件信息
我在Windows上,喜欢C#库,但C/C++也是可以接受的。
我可以很推荐 的PDFlib(http://www.pdflib.com/)。 它的商业,但它也有一个精简版,你可以私下使用。它包含非常多的muach功能,可用于所有平台。
我会在此回应梅耶斯先生。似乎有一些他们;在您喜爱的搜索引擎中搜索“pdf解析器库”(加上您的语言)。
几个排名靠前:
http://metacpan.org/pod/PDF::Parse
http://podofo.sourceforge.net/
http://www.vicman.net/download/13733/(数为.NET)
需要注意的是,如果你想编辑现有的PDF,你可能想读这个:
http://1t3xt.info/tutorials/faq.php?branch=faq.pdf_in_general&node=replace_word
感谢TrueWill,我之前搜索过,发现其中一些可能在创建PDF时具有强大的能力,而解析时却不那么强大,我希望得到一些有经验的人的指导,以便我可以跳到正确的方向而不花费太多时间评估所有这些图书馆。 – 2009-08-29 15:44:32
在阅读你推荐的文章后,我对是否有这样的图书馆感到悲观 – 2009-08-29 15:59:20
Pdfium.Net SDK也可以帮助你。通过此API,您可以访问文本,图像和其他对象及其属性的集合。 请注意我在开发此API的公司工作。
什么语言?环境? – 2009-08-29 14:11:03