2016-12-15 78 views
-3

在对其执行一些计算之后,我获得了一个结果数据帧。结果是数据帧。当我将它写入Amazon S3时,显示空白的特定单元格。我的结果数据框的前5位是:写入spark后数据丢失


_________________________________________________________ 
|var30 |var31 |var32 |var33 |var34 |var35 |var36| 
-------------------------------------------------------- 
|-0.00586|0.13821 |0  |  |1  |  |  | 
|3.87635 |2.86702 |2.51963 |8  |11  |2  |14 | 
|3.78279 |2.54833 |2.45881 |  |2  |  |  | 
|-0.10092|0  |0  |1  |1  |3  |1 | 
|8.08797 |6.14486 |5.25718 |  |5  |  |  | 
--------------------------------------------------------- 

But when i run result.show() command i am able to see the values. 

_________________________________________________________ 
|var30 |var31 |var32 |var33 |var34 |var35 |var36| 
-------------------------------------------------------- 
|-0.00586|0.13821 |0  |2  |1  |1  |6 | 
|3.87635 |2.86702 |2.51963 |8  |11  |2  |14 | 
|3.78279 |2.54833 |2.45881 |2  |2  |2  |12 | 
|-0.10092|0  |0  |1  |1  |3  |1 | 
|8.08797 |6.14486 |5.25718 |20  |5  |5  |34 | 
--------------------------------------------------------- 

此外,空白在每次运行时都显示在相同的单元格中。

+0

大问题。这里有很多细节。使它完全可以理解你的问题。 –

+1

请提供[创建一个最小,完整和可验证的示例](http://stackoverflow.com/help/mcve) – maasg

+0

对不起,这@Sa – avinash

回答

0

使用此将数据保存到您的S3 DataFrame.repartition(1).write.format("com.databricks.spark.csv").option("header", "true").save("s3n://Yourpath")

+0

我使用完全相同的语句。 – avinash