2016-09-15 76 views
0

我试图将Docx转换为Html, ,但Docx可能包含WMF格式的图像,MathType方程和tex格式的word方程,并带有$分隔符。将数学类型方程从word docx转换为使用ruby的词方程

我已经试过转换DOCX使用pandoc和LibreOffice到HTML:使用pandoc

问题: Pandoc跳过MathType的公式,所以我不得不阅读document.xml中并转换WMF使用gimp's convert命令行工具PNG。

这使得一些等式的格式非常不可读。

使用libreoffice的问题: 它实际上将整个文档转换为HTML格式非常好,但在转换过程中会从边上切出单词方程。

我想要的是一些可以将Docx转换成Html的工具,它可以将MathType方程式和单词方程式转换为tex格式。

我想用红宝石做这件事,但任何解决方法或想法也是最受欢迎的。

谢谢。

回答

1

pandoc docx reader supports only OMML数学,不是旧的MathType。

您可以编写一个pandoc filter,在pandoc AST(它将作为纯文本)中找到数学计算并将它们转换为pandoc math elements,pandoc LaTeX作家将自动将其转换为TeX数学。