2014-11-20 64 views
0

我想读一个ctrl-a分隔文件在烫伤。我收到一个错误,说它找到了错误的字段数(期望166,找到142),然后显示它正在尝试读取的行。由于某些原因,它不会读取文件第一部分中的分隔符。这里是我使用的代码:阅读ctrl分隔符在烫伤

Csv(args("input"), separator = "\u0001", fields = schema) 
    .read 
    .groupBy('var2){group => group.sum[Long]('var3)} 
    .write(Tsv(args("output"))) 

我是新来的烫伤,所以也许我正在使用CSV功能不正确/不适当。任何关于可能发生的事情的想法?

回答

0

我会建议看看它的错误行,看看是否有任何控制字符嵌入该字段值。 我有一个快速运行在阅读由此(开始标题!!)控制字符分隔的文件,我可以很好地阅读。所以建议看看数据 - 如果可能的话,你可以提供样本数据。

+0

请问选民有什么理由让我明白什么是错的。是不是标题(soh)的控制/开始和相同? http://www.fileformat.info/info/unicode/char/0001/index.htm http://unicodelookup.com/#ctrl – technotring 2014-12-22 01:04:42