在Linux上将MSword转换为XML/HTML

我需要将MSWord文件转换为XML或HTML，同时保留文件结构（主要是表格）。我偶然发现蒂卡，这是从MSWORD文件（及任何文件）中提取文本相当强大，如下：在Linux上将MSword转换为XML/HTML

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

，我可以从选项中选择要保存的输出转换成HTML/XML，如下：

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

但是输出基本上就像用HTML编写的纯文本，所以不可能得到表格结构和其他文档元素。

在Perl或Python中，有没有Tika的实现可以在保持元素结构的同时将文档转换为XML/HTML？或者是否有任何其他工具可以做到这一点？

来源

2013-04-09 hmghaly

虽然它没有蒂卡记住，[这个问题]（http://stackoverflow.com/q/4200680/1979005）可能的援助。 – MathSquared 2013-04-09 23:29:42

也有[Antiword]（http://search.yahoo.com/search;_ylt=Ati28dqvob.8VzXPaQv4ViybvZx4?p=antiword&toggle=1&cop=mss&ei=UTF-8&fr=yfp-t-900）这可能是有用的，但我不知道它是否可以解析表格。 – 2013-04-09 23:44:44

Apache Tika能够从Word文件中提取表格，它甚至具有[单元测试 - testWordHTML（）]（http://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src /test/java/org/apache/tika/parser/microsoft/WordParserTest.java）！你的文件有什么不寻常的现象吗？ – Gagravarr 2013-04-10 09:13:16

安装OpenOffice SDK，它为各种文档（包括转换）提供了强大的API。

http://www.oooforum.org/forum/viewtopic.phtml?t=7242

来源

2013-04-09 23:29:36

在Linux上将MSword转换为XML/HTML

回答

相关问题