Q

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件？

2009-07-27 51 views 0 likes

0

我使用Xpdf提取PDF文件与-raw方法适用文字，但现在我们要的PDF文件，HTML文件转换为提取HTML格式化标签，如大胆<b>，斜体<我>等与文本。 Xpdf与选项确实工作，我也尝试使用pdf2html这个，但没有找到它可靠的标签，如<sup>和<sub>在哪里丢失。有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件？

我们现在使用Acrobat Reader将PDF文件保存为HTML文件，该文件为我们提供了所有HTML格式标签。

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件？

谢谢。

2009-07-27 Pawan Rao

+0

你真的需要从Perl做到这一点，或者任何可以控制外部应用程序的东西吗？ – 2009-07-27 18:28:35

A

回答

2

PDF样式信息完全是任意的，不能以任何有意义的方式可靠地映射到HTML。我碰到的一个策略是使用-xml选项pdftohtml，然后使用LibXML将一些启发式应用于输出，并提供合理的HTML原始文档近似值。

2009-07-27 06:24:55 friedo

相关问题