0
我使用Xpdf提取PDF文件与-raw
方法适用文字,但现在我们要的PDF文件,HTML文件转换为提取HTML格式化标签,如大胆<b>,斜体<我>等与文本。 Xpdf与选项确实工作,我也尝试使用pdf2html这个,但没有找到它可靠的标签,如<sup>和<sub>在哪里丢失。有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?
我们现在使用Acrobat Reader将PDF文件保存为HTML文件,该文件为我们提供了所有HTML格式标签。
有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?
谢谢。
你真的需要从Perl做到这一点,或者任何可以控制外部应用程序的东西吗? – 2009-07-27 18:28:35