2017-02-21 39 views

回答

3

如果安装内容处理框架和转换应用程序,你可以用它来上变频.xls格式的Excel来简化docbook的。如果您连接Office OpenXML Extract管道,它将处理解包并对Excel格式的.xslx格式进行适量清理。

1

除了来自mholstege的好建议,请注意.xlsx文件只是包含XML的zip文件。 Here's a blog post举例说明如何从.docx中提取XML文件。

0

您可以使用xdmp:document-filter()来读取XLSX并生成XHTML输出。

我已经使用xdmp:document-filter()快速/轻松地处理XLXS文件并将XHTML输出转换为多个XML文档,然后将它们插入到MarkLogic数据库中。

每一行都会产生一个XHTML <p>元件(不要忘记,它被绑定到的命名空间http://www.w3.org/1999/xhtml)与表示数据的每一列中的逗号分隔值text()节点,除了一些有用<meta>元素有关的信息文件。

例如有三列排: FOO酒吧巴兹

会产生:

<p>foo,bar,baz</p> 

你可以选择数据的有意义的行,然后记号化的CSV值为<p>元素中的每一行数据生成列。

您可能需要过滤我们的工作表标签产生的<p>一些:

<p>Sheet1</p> 

以及行不包含任何价值,只是生产逗号的​​序列:

<p>,,,</p>