根据NiFi's homepage,它“支持数据路由,转换和系统中介逻辑的强大且可扩展的有向图”。使用NiFi调度Hadoop批处理
我在过去几个月一直在玩NiFi,不禁想知道为什么不用它来调度批处理过程。
比方说,我有一个用例,其中数据流入Hadoop,由一系列Hive \ MapReduce作业处理,然后导出到某个外部NoSql数据库供某些系统使用。
使用NiFi为了将数据摄入和流入Hadoop是NiFi的一个用例。
但是,使用Nifi来安排Hadoop上的作业(“Oozie-like”)是一种用例,我没有遇到过其他人的实现,并且由于它似乎完全可以实现,所以我试图了解它是否存在是不这样做的理由。
在NiFi上完成所有工作的好处是可以在一个地方从源代码到目的地直观地呈现整个数据过程。在流量复杂的情况下,对维护非常重要。
换句话说 - 我的问题是:是否有理由不使用NiFi作为批处理的调度程序\协调程序?如果是这样 - 在这种用例中可能会出现什么问题?
PS - 我读过这样的:“Is Nifi having batch processing?” - 但我的问题的目的是“在NiFi批量处理”不同的感觉比一个在附加问题提出
感谢您的回答。我会尽力澄清我的问题:我知道NiFi的优势(以及为获得数据而通过NiFi流动的数据),并打算在相关时使用它们。但是,在许多使用情况下,我想运行批处理流程,并想知道我会错过什么,如果我这样做,我会在哪里失败。 – giladovich