2013-04-09 97 views
2

我需要将MSWord文件转换为XML或HTML,同时保留文件结构(主要是表格)。我偶然发现蒂卡,这是从MSWORD文件(及任何文件)中提取文本相当强大,如下:在Linux上将MSword转换为XML/HTML

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text 

,我可以从选项中选择要保存的输出转换成HTML/XML,如下:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html 

但是输出基本上就像用HTML编写的纯文本,所以不可能得到表格结构和其他文档元素。

在Perl或Python中,有没有Tika的实现可以在保持元素结构的同时将文档转换为XML/HTML?或者是否有任何其他工具可以做到这一点?

+0

虽然它没有蒂卡记住,[这个问题](http://stackoverflow.com/q/4200680/1979005)可能的援助。 – MathSquared 2013-04-09 23:29:42

+0

也有[Antiword](http://search.yahoo.com/search;_ylt=Ati28dqvob.8VzXPaQv4ViybvZx4?p=antiword&toggle=1&cop=mss&ei=UTF-8&fr=yfp-t-900)这可能是有用的,但我不知道它是否可以解析表格。 – 2013-04-09 23:44:44

+0

Apache Tika能够从Word文件中提取表格,它甚至具有[单元测试 - testWordHTML()](http://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src /test/java/org/apache/tika/parser/microsoft/WordParserTest.java)!你的文件有什么不寻常的现象吗? – Gagravarr 2013-04-10 09:13:16

回答