2016-03-04 51 views
0

我想知道人们在做这个堆栈的数据分析。我对Spark Scala API特别感兴趣,因为它似乎具有更新的功能,对Spark更“自然”。Apache Spark(scala)+ python/R数据分析工作流程

不过,我不确定什么最佳实践是相对于数据可视化和探索,一旦大数据被碾碎和减少。

例如,我运行一个Spark作业超过〜2 Bn记录,现在我有一个Spark数据框,它包含大约100k条记录,其中包含一些结果,我想直方图,绘图和应用某些ML到python或R.

什么是实现这两个世界之间的握手的最佳方式?将结果保存到文件中? (如果是这样,什么是最好的选择,parquet,avro,json,csv?)将它保存到数据库?

基本上我不知道别人怎么找到最舒适的一个类似栈工作。

回答

2

一旦数据被转化或火花嘎吱作响,你可以考虑以下可视化的数据。

Apache zeppelin交互式数据分析。

另一种选择是存储星火输出工作在ElasticSearch的结果,我们可以使用Kibana可视化。