正在关注1和2: 不同类型的文件会随时进入我的NFS目录。我想使用OOZIE或任何其他HDFS解决方案来触发文件到达事件,并根据文件的类型将文件复制到HDFS中的特定位置。什么是最好的方式来做到这一点?使用OOZIE在文件到达NFS时触发执行的最佳方式
回答
最好的方法是非常主观的术语。它很大程度上取决于数据到达特定位置后应该发生什么类型的数据,频率和发生什么样的事情。
Apache水槽可以监视特定文件夹的数据可用性,并将其压入像HDFS 这样的水槽,原样为。 Flume适合流式传输数据,但它只做一项特定工作 - 只是将数据从一个地方移动到另一个地方。
但另一方面,请查找Oozie协调员。协调员具有数据可用性触发器,使用oozie可以在数据到达后使用spark,hive,pig等工具执行各种ETL操作,并使用shell操作将其推送到hdfs。你可以安排工作在特定的时间运行,频率或工作给你发送电子邮件,如果出现问题...
非常感谢@Pushkr!你能指导我在哪里可以找到Oozie协调员代码的源代码来触发文件到达并将文件复制到HDFS的特定位置? – Avi
谷歌是你的朋友伴侣。但这里有一些样本 - https://github.com/yahoo/oozie/wiki/Oozie-Coord-Use-Cases – Pushkr
亲爱的@Pushkr,Oozie协调员支持是否也支持NFS到达文件,而不仅仅是HDFS?请参考:https://community.cloudera.com/t5/Batch-Processing-and-Workflow/Getting-Oozie-Coordinator-datasets-working-with-S3-after-a-lost/td-p/27233 – Avi
- 1. 使用触发器有条件地插入的最佳方式
- 2. 最佳方式暂时直到文件
- 3. 触发适时事件的最佳方式
- 4. 执行此操作的最佳方式
- 5. 执行搜索的最佳方式
- 6. 执行数学表达式的最佳方法是什么?
- 7. 处理线程最大执行时间的最佳方式(Java)
- 8. Cocoa触摸切换视图时触发方法的最佳方式
- 9. 绑定/触发事件的最佳方式
- 10. 使用Intel SSE执行分支的最佳方式是什么?
- 11. 跟踪文本文件中最后一行的最佳方式
- 12. 在创建时将JSON发送到页面的最佳方式
- 13. 在backbonejs中触发路由的最佳方式是什么?
- 14. 别名表达式的最佳方式
- 15. 在GridView行上执行操作的最佳方式
- 16. 在Rails 3.x中执行ajax文件上传的最佳方式是什么
- 17. 当文件到达时SSIS包执行
- 18. 使用vim进行Cocoa开发的最佳方式是什么?
- 19. 在zip文件上分发大量数据的最佳方式
- 20. 自动执行邮件进程的最佳方式
- 21. 执行软件测试的最佳方式
- 22. 什么是登录oozie的最佳方式
- 23. 将文件上传到S3并触发lambda的最佳做法
- 24. 最佳方式使用欢迎文件在Web应用程序
- 25. 使用PHP发布到Web API的最佳方式是什么?
- 26. 正则表达式在Oozie的DistCp使用行动
- 27. 最好的方式执行内部文件到Java项目
- 28. 使用SmtpClient发送邮件的最佳方式?
- 29. 在运行时替换控件的最佳方式是什么?
- 30. 从触发器执行MS SQL Server 2000 DTS包的最佳方法是什么?
Apache Flume ... ........ ?? ?? – franklinsijo