通过Java阅读PDF并获取HTML内容

我想要读取现有PDF文件，不仅可以获取文本，还可以获取格式信息，如：字体（粗体，斜体），段落，图像，表格。基本上我想写一个类似于PDF的HTML。通过Java阅读PDF并获取HTML内容

是否有这样做的代码库？我正在寻找一个开源库。

问候，蒂娜阿格拉瓦尔

从扫描图像制作的PDF怎么样？它是否包含文字？ – Ingo 2010-05-21 10:17:23

PDF包含所有文本，图像和表格。 Word文档可能会转换为PDF – 2010-05-21 10:35:24

尝试PDFBox或iText。它们是开源的，可以处理文本，图像，表格等。

2012-08-22 11:46:24

如果您想要一个精确版本的页面，您可能需要创建一个页面的图像并在其上放置隐藏文本。我们的博客http://www.jpedal.org/PDFblog/2012/08/4-ways-to-convert-pdf-to-html5/可以通过PDF到HTML转换查看一些可能的想法。

2012-08-22 12:27:27

回答