我想要读取现有PDF文件,不仅可以获取文本,还可以获取格式信息,如:字体(粗体,斜体),段落,图像,表格。基本上我想写一个类似于PDF的HTML。通过Java阅读PDF并获取HTML内容
是否有这样做的代码库?我正在寻找一个开源库。
问候, 蒂娜阿格拉瓦尔
我想要读取现有PDF文件,不仅可以获取文本,还可以获取格式信息,如:字体(粗体,斜体),段落,图像,表格。基本上我想写一个类似于PDF的HTML。通过Java阅读PDF并获取HTML内容
是否有这样做的代码库?我正在寻找一个开源库。
问候, 蒂娜阿格拉瓦尔
如果您想要一个精确版本的页面,您可能需要创建一个页面的图像并在其上放置隐藏文本。我们的博客http://www.jpedal.org/PDFblog/2012/08/4-ways-to-convert-pdf-to-html5/可以通过PDF到HTML转换查看一些可能的想法。
从扫描图像制作的PDF怎么样?它是否包含文字? – Ingo 2010-05-21 10:17:23
PDF包含所有文本,图像和表格。 Word文档可能会转换为PDF – 2010-05-21 10:35:24