我想编辑csv(超过500MB)文件。 像编辑Scala中的csv文件
ID, NUMBER
A, 1
B, 3
C, 4
D, 5
如果我有数据我想添加一些额外的列像
ID, NUMBER, DIFF
A, 1, 0
B, 3, 2
C, 4, 1
D, 5, 1
该数据也能在ScSla数据类型。
(上)渊源考的CSV文件 - >(下)(新csv文件,文件的数据(RDD型)?)
Q1。哪种数据治疗方法最好?
- 从原始csv文件创建一个新的csv文件,然后重新打开新的csv文件到scala数据。
- 先创建新的scala数据并将其作为csv文件。
Q2。我是否需要为此使用'dataframe'?我应该使用哪个库或API?
感谢它真的帮助我:) –
根据你以后想要处理的数据,DF和RDD都不是很好的匹配。你的“差异”列需要通过文件的线性运行,所以你不会从Spark的并行性质中获益。 –