希望通过C#,所有内联,无Process.Start()...和免费...可以是RTF,HTML,无论情况如何。 。只要我可以在Word中打开,然后我可以保存为RTF,然后我可以在RichTextBox中加载。将PDF转换为Word可以打开的任何东西
我知道类似的问题已经充斥这个论坛多年来,似乎没有解决我所问的问题。
编辑:
看起来它可以在这里完成:http://www.itextpdf.com/examples/iia.php?id=275
希望通过C#,所有内联,无Process.Start()...和免费...可以是RTF,HTML,无论情况如何。 。只要我可以在Word中打开,然后我可以保存为RTF,然后我可以在RichTextBox中加载。将PDF转换为Word可以打开的任何东西
我知道类似的问题已经充斥这个论坛多年来,似乎没有解决我所问的问题。
编辑:
看起来它可以在这里完成:http://www.itextpdf.com/examples/iia.php?id=275
使用PDF库,如iTextSharp解析PDF。您将能够从PDF中访问所有文本和图像,并转换为您想要的任何表示形式。
还有其他解决方案(如安装xpdf和shelling - 如果传递正确的命令行参数,它将转换为html)。
我不确定Word是否可以打开pdf,除非您在Word文档中创建PDF。
我认为唯一的快速解决方案是购买或找到一个处理PDF的第三方库,然后使用它的API来提取所需的文本。任何情况下的文本格式都非常糟糕,我确信这一点。另外请注意,显示文本的某些pdf实际上已将其保存为图像,因此无法获取数据。
我不断听到通过iTextSharp解析文本/图像,足够公平。哪些样品在使用iTextSharp中的PRTokeniser? – 2010-09-10 21:25:15