2011-11-22 98 views

回答

4

我说你有两个选择,无论是由Apache POI

一是使用Apache Tika。 Tika是一种文本和元数据提取工具包,能够通过对POI进行适当调用,从Word文档中提取相当丰富的文本。结果是Tika会为您的word文档的内容提供XHTML样式的XML。

另一种选择是使用最近添加到POI的类,即WordToHtmlConverter。这会将你的word文档转换为HTML格式,并且通常会比Tika更多地保留结构和格式。

根据您希望获得的XML的种类,其中之一应该是您的好选择。我建议你同时针对你的一些示例文件尝试一下,看看哪一个最适合你的问题域和需求。

+0

WordToHtmlConverter,whichi Jar文件这个类是在我认为它仍处于开发的早期阶段,而不是作为Jar文件发布? – user2434

+0

它在Scratchpad jar文件中。您将需要获得最新的测试版,3.8 Beta 4,并使用主POI jar + scratchpad jar。 – Gagravarr

5

HWPF子项目的目的正是:处理Word文件。

http://poi.apache.org/hwpf/index.html

然后,将数据转换成XML,你必须建立由ususal方式XML:StAX的,JDOM,XStream的...

的Apache提供了一个快速指南:

http://poi.apache.org/hwpf/quick-guide.html

而且我还发现:

http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/

如果你要处理docx文件,你可能想看看OpenXML4J子项目:

http://poi.apache.org/oxml4j/index.html