是否可以使用Apache POI解析MS Word并将其转换为XML？

如果是这样，你能指点我的任何教程吗？

2011-11-22 user2434

我说你有两个选择，无论是由Apache POI

一是使用Apache Tika。 Tika是一种文本和元数据提取工具包，能够通过对POI进行适当调用，从Word文档中提取相当丰富的文本。结果是Tika会为您的word文档的内容提供XHTML样式的XML。

另一种选择是使用最近添加到POI的类，即WordToHtmlConverter。这会将你的word文档转换为HTML格式，并且通常会比Tika更多地保留结构和格式。

根据您希望获得的XML的种类，其中之一应该是您的好选择。我建议你同时针对你的一些示例文件尝试一下，看看哪一个最适合你的问题域和需求。

2011-11-22 16:48:22 Gagravarr

WordToHtmlConverter，whichi Jar文件这个类是在我认为它仍处于开发的早期阶段，而不是作为Jar文件发布？ – user2434

它在Scratchpad jar文件中。您将需要获得最新的测试版，3.8 Beta 4，并使用主POI jar + scratchpad jar。 – Gagravarr

HWPF子项目的目的正是：处理Word文件。

然后，将数据转换成XML，你必须建立由ususal方式XML：StAX的，JDOM，XStream的...

的Apache提供了一个快速指南：

而且我还发现：

如果你要处理docx文件，你可能想看看OpenXML4J子项目：

2011-11-22 09:58:06

回答