Q

如何从本地文件系统和hdfs系统读取Apache Samza中的文件

2017-01-16 108 views 1 likes

1

在Apache Samza中寻找从本地系统或HDFS读取文件的方法然后将过滤器，聚合，条件，排序，分组应用到批处理数据。请提供一些帮助。如何从本地文件系统和hdfs系统读取Apache Samza中的文件

2017-01-16 Gaya Prasad Mourya

A

回答

0

您应该为每个要使用的数据源创建一个系统。例如，要从文件中读取，您应该创建一个带有FileReaderSystemFactory的系统 - 对于HDFS，使用HdfsSystemFactory创建一个系统。然后，您可以使用常规进程回调或窗口来处理您的数据。

2017-02-15 18:27:58

0

你可以使用标准的卡夫卡制片人喂养你的萨姆扎工作。为了让你更容易。您可以使用Logstash，你需要创建Logstash脚本，您可以指定：

输入本地文件或HDFS
过滤器（可选），在这里你可以做基本的过滤，聚合等
卡夫卡输出，特定主题要养活

输入

我用这种方法从本地文件

养活我samza工作

另一种方法可以使用卡夫卡连接 http://docs.confluent.io/2.0.0/connect/

2017-03-08 10:17:53

相关问题