MarkLogic中是否有任何功能将输入为excel文件并将其转换为XML文件。将excel文件转换为XML的Marklogic函数?
我遇到了一个函数xdmp:excel-convert()
,但是这个函数正在生成.xhtml文件。并且不适用于.xlsx扩展excel文件。
我使用ML版本7
MarkLogic中是否有任何功能将输入为excel文件并将其转换为XML文件。将excel文件转换为XML的Marklogic函数?
我遇到了一个函数xdmp:excel-convert()
,但是这个函数正在生成.xhtml文件。并且不适用于.xlsx扩展excel文件。
我使用ML版本7
如果安装内容处理框架和转换应用程序,你可以用它来上变频.xls格式的Excel来简化docbook的。如果您连接Office OpenXML Extract管道,它将处理解包并对Excel格式的.xslx格式进行适量清理。
除了来自mholstege的好建议,请注意.xlsx文件只是包含XML的zip文件。 Here's a blog post举例说明如何从.docx中提取XML文件。
您可以使用xdmp:document-filter()来读取XLSX并生成XHTML输出。
我已经使用xdmp:document-filter()
快速/轻松地处理XLXS文件并将XHTML输出转换为多个XML文档,然后将它们插入到MarkLogic数据库中。
每一行都会产生一个XHTML <p>
元件(不要忘记,它被绑定到的命名空间http://www.w3.org/1999/xhtml
)与表示数据的每一列中的逗号分隔值text()
节点,除了一些有用<meta>
元素有关的信息文件。
例如有三列排: FOO酒吧巴兹
会产生:
<p>foo,bar,baz</p>
你可以选择数据的有意义的行,然后记号化的CSV值为<p>
元素中的每一行数据生成列。
您可能需要过滤我们的工作表标签产生的<p>
一些:
<p>Sheet1</p>
以及行不包含任何价值,只是生产逗号的序列:
<p>,,,</p>