2011-09-24 58 views
2

有没有人有机会在两者上工作?我需要建立一个移动数据的框架。基本上,我们将点击流数据作为文本文件进入。这些数据需要从应用程序服务器转移到HDFS,然后在存档后转移到S3。Cloudera的Flume与Facebook的抄写员

我需要帮助选择Flume和Scribe。在可管理性,设置和易于定制方面哪一个更好?

回答

2

查看答案贴here

我还要举了答案:

  1. 水槽允许您配置从 中心点的水槽的安装,而不必ssh到每一台机器,更新 配置变量并重新启动守护进程或两个守护进程。您可以启动 停止,创建,删除和重新配置任何机器上的逻辑节点 从网络中的任何命令行运行Flume,使用Flume jar。

  2. Flume还具有集中活跃度监控功能。我们已经听到一个 Scribe过程的几个故事默默地失败,但躺在 未被发现的天,直到Scribe安装的其余部分 开始在增加的负载下嘎吱嘎吱。 Flume允许您在一个地方看到所有逻辑节点的 健康状况(请注意,这是 与机器活性监视的不同之处;通常机器保持在 以上,同时进程可能会失败)。

  3. Flume支持三种不同类型的可靠性保证, 允许您在资源使用和 可靠性之间进行权衡。具体而言,Flume支持完全确认的可靠性,保证所有事件最终都会通过事件流程实现 。

  4. Flume的确具有可扩展性 - 编写您自己的 源代码或接收器并将大多数系统与Flume集成非常容易。如果滚动 是不切实际的,那么让您的应用程序以Flume可以理解的形式输出事件通常非常简单(例如,Flume 可以运行Unix进程,因此如果您可以使用shell脚本 来获取您的数据,你是金)。

这不是用水槽的好处一个详尽的清单 - 我还没有 触及装饰用轻质改造或 元数据提取,配置语言,在运行 几个逻辑节点的能力一个Flume流程,自动分流 和在HDFS中滚动日志文件......还有更多关于Flume 的信息,我们期待与大家分享。

与我不同的是,Cloudera正积极支持Flume。虽然我一般信任Facebook保持良好的开源项目,但Cloudera的业务围绕这样的工具提供支持 ,所以我相信Flume将长期支持 。我想尽量减少我不得不考虑这个特殊问题的时间。也就是说,到目前为止,我已经遇到了很多烦人的问题,其中Flume在其抽象中或者在其实现中有点复杂,正如您可能从1.0之前的技术 期望的那样。如果Asana还没有进入测试阶段,我可能会选择 Scribe