2016-07-25 33 views
2

我们有一个看起来像这样的文件:Azure的数据仓库多碱文件格式

Col1,Col2,Col3,Col4,Col5 
"Hello,",I,",am",some,data! 

因此它具有以下“属性”:

  • 逗号分隔
  • 双引号列分隔符
  • 某些列中的逗号

现在,我不确定实际上是否可以用PolyBase摄取这些信息,但是想知道是否有办法?

我们目前看到的错误是“Could not find a delimiter after quote” ..我的猜测是因为双引号被击中的是一个预期的分隔符。经过

这是我们当前的文件格式,完整性:

CREATE EXTERNAL FILE FORMAT Comma 
WITH (FORMAT_TYPE = DELIMITEDTEXT, 
     FORMAT_OPTIONS(
      FIELD_TERMINATOR = ',', 
      STRING_DELIMITER = '"', 
    ) 
) 

回答

1

用十六进制指定它。

STRING_DELIMITER = '0x22' 

(基于有人在的https://msdn.microsoft.com/en-au/library/dn935026.aspx末尾描述的问题)加入一个中间步骤以从CSV到ORC格式文件转换到底排序这一点

+0

部分正确,但我仍然有问题的事情,所以去了最后的ORC格式,ty! – m1nkeh