0

我是新来的云和大数据。但是有很多在这些兴趣,我在Java编程显著经验。我目前正在研究我的uni项目,以比较Apache Spark流与Google云数据流的性能。我已经阅读了一些文章,包括完成的比较here谷歌数据流VS阿帕奇星火流媒体(无论是在谷歌云或与谷歌Dataproc)

据我所知,Spark和数据流的编程模型,然而,因为在这个领域我有限的知识和新知识的不同,我想了解如果性能比较还是可以做什么? 和什么类型的用例将是正确的呢?在这里,流媒体应用程序应该考虑哪些性能参数?

一边念叨数据流和火花,我也碰到Dataproc还想着如果是更好的数据流之间做对比VS上Dataproc或数据流星火VS星火+谷歌云。

任何建议上,这将是我没有得到这个明确的方向理解。

回答

3

比较性能的最佳方式是与真正的终端到终端的数据处理管道。所以你首先需要回答你自己的问题:“什么类型的用例对此是正确的?”因为有几乎无限的品种。

您可能会发现在included examples一些启发。