2009-07-27 51 views
0

我使用Xpdf提取PDF文件与-raw方法适用文字,但现在我们要的PDF文件,HTML文件转换为提取HTML格式化标签,如大胆<b>,斜体<我>等与文本。 Xpdf与选项确实工作,我也尝试使用pdf2html这个,但没有找到它可靠的标签,如<sup>和<sub>在哪里丢失。有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?

我们现在使用Acrobat Reader将PDF文件保存为HTML文件,该文件为我们提供了所有HTML格式标签。

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?

谢谢。

+0

你真的需要从Perl做到这一点,或者任何可以控制外部应用程序的东西吗? – 2009-07-27 18:28:35

回答

2

PDF样式信息完全是任意的,不能以任何有意义的方式可靠地映射到HTML。我碰到的一个策略是使用-xml选项pdftohtml,然后使用LibXML将一些启发式应用于输出,并提供合理的HTML原始文档近似值。

相关问题