2017-09-04 152 views
-2

我的大CSV文件中有一些损坏的行,其中一些数据值由于缺少换行符而发生移位。这会导致值出现在错误的列标题中。例如。如果在我的表中存在三列,,,在腐败之后,我开始看到诸如,的值。查找列中的所有非整数

有没有办法让我删除所有行,例如:实际上,我知道应该在行中看到一个非int整数,这是一个Int?

+1

你应该输入数据帧和预期的输出数据帧提供。 –

回答

0

你可以做的是通过循环,当lines.split(",").count()不等于你想要的,你可以过滤它。事情是这样的:

import scala.io.Source 
val n = 5 //or how many columns you require 
Source.fromFile(input_file).getLines().toSeq.map(_.split(",")).filter(_.count == n) 

这应该做你想要什么:)