文件分隔符我有特殊的分隔符的文本文件:特殊字符作为火花
35¡1682¡231¡20.00000000¡50.00000000¡0.00000000¡0.00000000¡304.1100¡333.110000
¡I¡1¡0¡10¡SHORT NAME
1105682¡0¡100000.00000000¡100000.00000000¡1105682¡D¡D
我想基于当前¡
特殊的分隔符火花此文件分割。 请建议解决方法。这个命令的 产出比来作为
val input_header = sc.textFile(path).first()
当我在读这RDD文件,并显示它的内容。它显示分隔符为?
正确读取你的文件你检查你的文件的UTF编码? –
你应该很可能检查这个:https://stackoverflow.com/questions/43200978/spark-read-wholetextfiles-with-non-utf-8-encoding –