Apache Spark（scala）+ python/R数据分析工作流程

我想知道人们在做这个堆栈的数据分析。我对Spark Scala API特别感兴趣，因为它似乎具有更新的功能，对Spark更“自然”。Apache Spark（scala）+ python/R数据分析工作流程

不过，我不确定什么最佳实践是相对于数据可视化和探索，一旦大数据被碾碎和减少。

例如，我运行一个Spark作业超过〜2 Bn记录，现在我有一个Spark数据框，它包含大约100k条记录，其中包含一些结果，我想直方图，绘图和应用某些ML到python或R.

什么是实现这两个世界之间的握手的最佳方式？将结果保存到文件中？（如果是这样，什么是最好的选择，parquet，avro，json，csv？）将它保存到数据库？

基本上我不知道别人怎么找到最舒适的一个类似栈工作。

2016-03-04 elelias

一旦数据被转化或火花嘎吱作响，你可以考虑以下可视化的数据。

Apache zeppelin交互式数据分析。

另一种选择是存储星火输出工作在ElasticSearch的结果，我们可以使用Kibana可视化。

2016-03-04 13:24:00 nagendra

回答