我最近一直在使用Spark,并且在尝试保存Spark DataFrame时已经开始遇到问题。将Spark DataFrame保存为CSV提供了InvalidClassException
如果我使用.save
功能overthing正常工作:
df.write.save("SparkTest_output")
但是,如果我尝试使用.csv
或.json
(或任何其他扩展类型)。例如:
df.write.csv("SparkTest_output")
我得到一个InvalidClassException
:
java.io.InvalidClassException: org.apache.commons.lang3.time.FastDateFormat; local class incompatible: stream classdesc serialVersionUID = 1, local class serialVersionUID = 2
at java.io.ObjectStreamClass.initNonProxy(ObjectStreamClass.java:621)
at java.io.ObjectInputStream.readNonProxyDesc(ObjectInputStream.java:1623)
at java.io.ObjectInputStream.readClassDesc(ObjectInputStream.java:1518)...etc
阅读各地后,我了解到,此异常版本号错误的发生,但我不知道当我”这可能是案件m仅在Spark 2.0.2.1上运行单个文件。有没有其他人遇到过这个问题,还是有人有任何建议?由于
Here are the DataFrame write member functions from the docs
因为星火2.0+的CSV文件的支持是建立在(没有所需的外部包)我没有指定一个包在特定情况下 – ralston
好一点。 –