2010-09-10 64 views

回答

2

使用PDF库,如iTextSharp解析PDF。您将能够从PDF中访问所有文本和图像,并转换为您想要的任何表示形式。

还有其他解决方案(如安装xpdf和shelling - 如果传递正确的命令行参数,它将转换为html)。

+0

我不断听到通过iTextSharp解析文本/图像,足够公平。哪些样品在使用iTextSharp中的PRTokeniser? – 2010-09-10 21:25:15

0

我不确定Word是否可以打开pdf,除非您在Word文档中创建PDF。

我认为唯一的快速解决方案是购买或找到一个处理PDF的第三方库,然后使用它的API来提取所需的文本。任何情况下的文本格式都非常糟糕,我确信这一点。另外请注意,显示文本的某些pdf实际上已将其保存为图像,因此无法获取数据。