设置每个系统的数据节点，并从每个

的问题是这样的

我是否正确或有任何更好的方法或更好的技术。

2016-02-12 Muhunthan

大数据技术都是关于群集的 – subodh

是的，但是在我的要求中，每个节点都有不同的数据。每次我需要将来自每个服务器和进程的所有日志文件组合起来以获得输出 – Muhunthan

Spark ..怎么样？？ – Muhunthan

假设有100个日志文件，每个节点有其中20个在本地文件系统。你的问题是我应该加载全部100个火花？

在运行spark之前，您需要从本地文件系统将文件加载到HDFS（如果这些文件位于不同的节点中，则可以使用SSH或其他方式加载它们）。然后，执行指定100个日志文件的HDFS位置的spark程序。

典型情形作为步骤：假设有在5个服务器（20个）和5个服务器100的日志文件是Hadoop集群：

步骤1：将文件加载到HDFS。从所有5台服务器传播hdfs加载命令。此时，当您尝试使用时，您应该拥有全部100个文件。步骤2：执行Spark程序指向此/ path/to/logfiles位置。

希望它有帮助。

2016-02-12 09:13:07

感谢您的回答，这是实际情况。假设有5台远程服务器，所有五台服务器都有日志文件，例如所有日志文件都包含产品ID，相同的产品ID可以存在于另一个节点的日志中。我的工作是从所有服务器的日志中获得唯一的产品ID – Muhunthan

@Muhunthan - I根据您的评论更新了我的答案。请检查。 –

非常感谢。我现在清楚 – Muhunthan

回答