5
A
回答
4
我说你有两个选择,无论是由Apache POI
一是使用Apache Tika。 Tika是一种文本和元数据提取工具包,能够通过对POI进行适当调用,从Word文档中提取相当丰富的文本。结果是Tika会为您的word文档的内容提供XHTML样式的XML。
另一种选择是使用最近添加到POI的类,即WordToHtmlConverter。这会将你的word文档转换为HTML格式,并且通常会比Tika更多地保留结构和格式。
根据您希望获得的XML的种类,其中之一应该是您的好选择。我建议你同时针对你的一些示例文件尝试一下,看看哪一个最适合你的问题域和需求。
5
HWPF子项目的目的正是:处理Word文件。
http://poi.apache.org/hwpf/index.html
然后,将数据转换成XML,你必须建立由ususal方式XML:StAX的,JDOM,XStream的...
的Apache提供了一个快速指南:
http://poi.apache.org/hwpf/quick-guide.html
而且我还发现:
http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/
如果你要处理docx文件,你可能想看看OpenXML4J子项目:
相关问题
- 1. Java:使用apache POI如何将ms word文件转换为pdf?
- 2. 是否可以使用ColdFusion将Microsoft Word文档转换为PDF?
- 3. 如何从MS Word中使用Apache POI
- 4. 使用Apache POI将byteArray转换为XSSFWorkbook
- 5. 解析aspx文件中的控件并将其转换为xml
- 6. Java:使用POI/HWPF解析ms-word文档
- 7. 是否可以将byte []转换为bitmapsource?
- 8. 使用Apache Poi解析Word文档中表格中的表格
- 9. 将varchar转换为XML并解析XML失败
- 10. 解析XML并转换为集合
- 11. 无法使用Apache POI解析CTDataModel 3.13
- 12. 在MS Word中将MathML转换为MathType
- 13. 将解析树转换为XML
- 14. 如何使用Freemarker将XML Word文档转换为DOC?
- 15. 阅读MS Excel中使用Apache POI
- 16. 将文本解析器转换为XML
- 17. 将MS Word内容转换为HTML
- 18. 解析并将4Test转换为Perl
- 19. Word到XML转换
- 20. 是否可以使用JsonReaderWriterFactory将XML转换为JSON而不使用DataContractJsonSerializer?
- 21. 使用MS Word XML
- 22. 是否可以为由POI库创建的word文档定义xml模式?
- 23. 是否可以将NSInteger转换为NSNumber?
- 24. 是否可以将VBA转换为C#?
- 25. 是否可以将View转换为ViewGroup?
- 26. 是否可以将MBCS转换为DBCS?
- 27. 是否可以使用Apache POI XSSF设置活动范围?
- 28. Apache POI Word教程。
- 29. 使用Apache POI库将Excel电子表格转换为HTML
- 30. 如何使用Apache POI将HSSFWorkbook转换为XSSFWorkbook?
WordToHtmlConverter,whichi Jar文件这个类是在我认为它仍处于开发的早期阶段,而不是作为Jar文件发布? – user2434
它在Scratchpad jar文件中。您将需要获得最新的测试版,3.8 Beta 4,并使用主POI jar + scratchpad jar。 – Gagravarr