想知道,是否有某个问题列表要问自己,以了解Spark是否是正确的工具?我如何知道Apache Spark是否是正确的工具?
我再次花了一周的时间用Apache Spark实现POC,以便比较纯Python代码的性能,当我看到1/100比率(赞成python)时,我感到莫名其妙。
我知道Spark是一个“大数据”工具,每个人都会说“Spark是处理TB/PB数据的正确工具”,但我认为这不是唯一需要考虑的事情。
简而言之,我的问题是,当给出小数据作为输入时,我怎么能知道计算是否会消耗足够的时间,以便Spark实际上可以改进事物?
如果数据很小,火花是过量的 – eliasah