我想我有这个概念,它适用于很多情况。我有一个测试项目,我想要了解更多关于这个,但我想知道风暴是否真的适合这个。
我遇到的概念问题是'流'定义。看起来风暴将作为订阅流并实时处理它的魅力起作用,但我没有真正的流,而是我想要处理的有限数据集。
我知道这里有hadoop,但我对Storm的实时功能以及其他有趣的点感兴趣,Nathan是Storm写的,他在谈话中提到过。
所以我想知道,人们是否会写Spouts调查非流媒体API,然后对结果进行比较以模拟流?
第二个重要的一点是,似乎风暴拓扑从未完成处理,直到中断,这再次不适用于我的情况。我希望我的拓扑知道,一旦我有限的源数据列表完成,处理可以终止并且可以发出最终结果。
那么,这一切在风暴术语中是否有意义,还是我看错了东西?如果是这样,那么您对这种实时并行计算需求有什么替代方案?
谢谢!