在Apache Samza中寻找从本地系统或HDFS读取文件的方法 然后将过滤器,聚合,条件,排序,分组应用到批处理数据。 请提供一些帮助。如何从本地文件系统和hdfs系统读取Apache Samza中的文件
1
A
回答
0
您应该为每个要使用的数据源创建一个系统。例如,要从文件中读取,您应该创建一个带有FileReaderSystemFactory的系统 - 对于HDFS,使用HdfsSystemFactory创建一个系统。然后,您可以使用常规进程回调或窗口来处理您的数据。
0
你可以使用标准的卡夫卡制片人喂养你的萨姆扎工作。为了让你更容易。您可以使用Logstash,你需要创建Logstash脚本,您可以指定:
- 输入本地文件或HDFS
- 过滤器(可选),在这里你可以做基本的过滤,聚合等
- 卡夫卡输出,特定主题要养活
输入
我用这种方法从本地文件
养活我samza工作另一种方法可以使用卡夫卡连接 http://docs.confluent.io/2.0.0/connect/
相关问题
- 1. 如何将文件从本地文件系统复制到HDFS文件系统?
- 2. 从文件系统中读取文件
- 3. 从HDFS复制文件到本地文件系统用JAVA
- 4. Dojo使用dojo.xhrGet从本地文件系统读取json文件
- 5. UNIX系统和Windows系统中读取.CSV文件的差异
- 6. 如何在HDFS API中指定本地文件系统?
- 7. 无法创建本地文件系统如何写入本地文件系统
- 8. 将Spark工作写入本地文件系统还是从本地文件系统读取?
- 9. jsdom本地文件系统
- 10. 将内容从HDFS复制到本地文件系统
- 11. 无法从本地文件系统复制到HDFS
- 12. 如何让电报机器人读取本地文件系统
- 13. 如何从系统文件夹读取文件
- 14. 当容器运行时,Docker从本地系统读取文件
- 15. 检索从本地文件系统
- 16. 本地文件系统访问和PHP5
- 17. 如何从本地文件系统上传文件?
- 18. Ubuntu非只读文件系统非系统文件
- 19. 如何使用flink java api读取目录下的文件名(本地文件系统/ hdfs)
- 20. 如何从系统中访问系统jboss文件夹中的文件
- 21. 的Hadoop文件系统是物理文件系统或虚拟文件系统
- 22. HDFS文件系统 - 如何获取目录中特定文件的字节数
- 23. Spark独立群集无法读取本地文件系统中的文件
- 24. 从JAR中写入外部文件(本地文件系统)
- 25. 如何从Java系统中读取p12文件?
- 26. 不可能从地图写入到hadoop文件系统(HDFS)
- 27. 使用boost文件系统获取文件系统类型
- 28. Google文件系统读取一致性
- 29. 如何将jmeter文件读入本地系统?
- 30. 将文件系统中的文件(图像)复制到HDFS