Spark to new;使用Databricks。真的很迷惑。spark:dataframe.count产生的方式多于逐行打印或show()
我有这个dataFrame:df。
df.count()
得到龙= 5460
但是,如果我打印一行一行: df.collect.foreach(println)
我只得到541行打印出来。同样,df.show(5460)
只显示1017行。可能是什么原因?
一个相关的问题:我如何使用Databricks保存“df”?它保存在哪里? - 我试图保存之前,但之后找不到文件。我通过安装S3存储桶加载数据,如果这是相关的。
谢谢马克。我认为你对我的第二个问题的回答是肯定的。对于第一个问题,我仍然不确定。在count和println/show之间我没有采取其他行动。数据似乎很好 - 它打印确定(如果缺少一些行)并保存OK。保存的数据实际上有5460行。 – MichM
另外,考虑到行数的不同取决于我是否要求使用foreach println或show,我怀疑它与Databricks的一些错误有关,特别是输出单元的大小。 – MichM