2012-03-05 61 views
1

我想将HTML页转换为MS字。我想知道什么API会有帮助,并且如果有其他选项可以做同样的事情。 整个页面将被转换为.doc(例如,如果html页面中有表格,则必须在word doc中创建类似的表格)。 Apache POI不提供格式化单词文档的选项,如HTML页面中所示。 我需要一些可以给我一个完全格式化的word文档的东西。使用java或任何API将HTML页转换为MS字

我寻求的一些东西是JSOUP,docx4j,jasper reportsJOD Convertor

我试着用JSOUP解析HTML页面,并在我的java程序中得到了页面的内容 。现在我需要将这些内容传递给 doc/docx文件。 docx4j可以帮助获取格式化的docx文件吗?

请大家帮忙。 谢谢。

+0

可能出现的重复[用Word以编程方式将Word文档转换为HTML](http://stackoverflow.com/questions/227236/convert-word-doc-to-html-programmatically-in-java) – 2012-03-05 11:57:38

+0

将文件重命名为.DOC。有用。 – 2012-03-05 12:07:16

+0

@AndreiBodnarescu:感谢您的链接。通过它。我希望它有助于 – 2012-03-05 12:10:20

回答

-3

我找到了一个方法来做同样的事情。首先,我需要使用JSOUP获取已分析的对象,并将这些对象传递给文档模板。我现在正在寻找可以为我创建简单模板并动态创建文档的选项。 我已经问了另外一个question

+1

i不要以为你已经解释了如何解决这个问题 – Edd 2012-07-17 17:35:22

1

我会用阿什维尼拉曼的建议去。它不适用于任何场景。如果一个复杂的HTML文档中有很多图片和东西,那么Word将不会很好地工作。但在大多数情况下,它应该没问题。否则,在你面前有一项复杂的任务。例如,您必须使用jsoup库解析HTML文档,然后使用docx4j库创建工作文档。 链接都是在这里:

http://www.docx4java.org/trac/docx4j

http://jsoup.org/

当你也这样做,格式可能是前途未卜。

要回答你原来的问题,不,没有现成的库,做你所期望的。至少我没有遇到任何。

+0

是否有任何向后兼容性问题,通过改变扩展名将docx转换为doc? – 2012-03-13 06:03:25

+0

我只是尝试将一个html文件重命名为docx,它似乎也可以工作,所以不是将其重命名为doc,而是将其重命名为docx。如果有人使用Office 97-2003,那么这些用户可能会遇到问题吗?如果您将其重命名为.doc,那么每个人都可以使用它。如果您没有97-2003用户,那么它不应该成为问题。 – sethu 2012-03-13 08:46:14

+0

我试过重命名文件当我尝试打开docx文件时出现这些错误: 1)文件无法打开,因为内容有问题。详细信息:文件已损坏,无法打开。 2)Word在mySample中发现不可读的内容。docx – 2012-03-13 12:07:37

相关问题