2016-02-12 81 views
0

数据我很初学者如果Hadoop的HDFS和设置每个系统的数据节点,并从每个

  • 有连接在局域网中有5个服务器
  • 每个服务器都有日志文件不同的数据

的问题是这样的

  • 我需要处理所有与星火的日志文件。
  • 我需要加载所有的日志文件来触发和处理。
  • 我有一个想法,有hdfs集群,像每个服务器作为奴隶(每个 一个作为奴隶),并要求每个奴隶,并获得日志文件和 加载火花。

我是否正确或有任何更好的方法或更好的技术。

+0

大数据技术都是关于群集的 – subodh

+0

是的,但是在我的要求中,每个节点都有不同的数据。每次我需要将来自每个服务器和进程的所有日志文件组合起来以获得输出 – Muhunthan

+0

Spark ..怎么样?? – Muhunthan

回答

0

假设有100个日志文件,每个节点有其中20个在本地文件系统。你的问题是我应该加载全部100个火花?

在运行spark之前,您需要从本地文件系统将文件加载到HDFS(如果这些文件位于不同的节点中,则可以使用SSH或其他方式加载它们)。然后,执行指定100个日志文件的HDFS位置的spark程序。

典型情形作为步骤: 假设有在5个服务器(20个)和5个服务器100的日志文件是Hadoop集群:

步骤1:将文件加载到HDFS。从所有5台服务器传播hdfs加载命令。此时,当您尝试使用时,您应该拥有全部100个文件。步骤2:执行Spark程序指向此/ path/to/logfiles位置。

希望它有帮助。

+0

感谢您的回答,这是实际情况。假设有5台远程服务器,所有五台服务器都有日志文件,例如所有日志文件都包含产品ID,相同的产品ID可以存在于另一个节点的日志中。我的工作是从所有服务器的日志中获得唯一的产品ID – Muhunthan

+0

@Muhunthan - I根据您的评论更新了我的答案。请检查。 –

+0

非常感谢。我现在清楚 – Muhunthan

相关问题