2010-05-21 104 views
1

我想要读取现有PDF文件,不仅可以获取文本,还可以获取格式信息,如:字体(粗体,斜体),段落,图像,表格。基本上我想写一个类似于PDF的HTML。通过Java阅读PDF并获取HTML内容

是否有这样做的代码库?我正在寻找一个开源库。

问候, 蒂娜阿格拉瓦尔

+0

从扫描图像制作的PDF怎么样?它是否包含文字? – Ingo 2010-05-21 10:17:23

+0

PDF包含所有文本,图像和表格。 Word文档可能会转换为PDF – 2010-05-21 10:35:24

回答

3

尝试PDFBoxiText。它们是开源的,可以处理文本,图像,表格等。