camus

1热度

1回答

我们已经成功运行加缪一年左右，成功地从卡夫卡（版本0.82）中提取avro有效载荷，并将其作为.avro文件存储在HDFS中，只需使用几个卡夫卡话题。最近，我们公司内的一个新团队在预生产环境中注册了约60个新主题，并开始向这些主题发送数据。该团队在将数据路由到kafka主题时犯了一些错误，当Camus将这些有效载荷反序列化为这些主题时，会导致错误。由于超过了“失败的其他”错误阈值，加缪作业失败。

0热度

1回答

为加缪工作设置frequecy

我刚刚开始与加缪。我计划每隔一小时运行一次camus工作。我们每小时收到80000000条消息（平均大小约为4KB）。如何设置以下属性： # max historical time that will be pulled from each partition based on event timestamp kafka.max.pull.hrs=1 # events with a time

0热度

2回答

如何决定camus的mappers的数量？

我刚开始与加缪。我打算每隔1小时运行一次加缪。我们每小时左右~消息，平均消息大小为4KB（我们在卡夫卡有一个单独的主题）。我第一次尝试使用10映射器，复制一小时的数据需要花费大约2小时，并创建了大小约为7GB的10个文件。然后我试图300映射器，它把时间降到〜1小时。但它创建了11个文件。后来，我用150 mappers试了一下，花了大约30分钟。那么，我该如何选择映射器的数量呢？另外，我

0热度

1回答

Gobblin Map-reduce作业在EMR上成功运行，但s3中没有输出

我正在运行gobblin，使用3节点EMR集群将数据从kafka移动到s3。我在hadoop 2.6.0上运行，并且我还针对2.6.0构建了gobblin。看起来好像map-reduce作业成功运行。在我的hdfs我看到指标和工作目录。指标有一些文件，但工作目录为空。 S3存储桶应该有最终的输出，但没有数据。并在最后它说输出任务状态路径/ gooblinOutput /工作/ GobblinK

-1热度

1回答

camus or gobblin which is preferred

您能否帮我设置camus或gobblin来存储来自Kafka的HDFS消息。一个实例可能很棒。 Gobblin仍处于孵化阶段，camus已逐步淘汰。所以最好使用哪一个。我下载gobblin跑gobblin-standalone.sh的开始，但我得到的错误环境变量GOBBLIN_JOB_CONFIG_DIR没有设置！。

0热度

1回答

如何在使用Hadoop时解决NoClassDefFoundError？

我越来越 Exception in thread "main" java.lang.NoClassDefFoundError: com/linkedin/camus/etl/IEtlKey. 在运行命令： hadoop jar camus-etl-kafka-0.1.0-SNAPSHOT.jar com.linkedin.camus.etl.kafka.CamusJob -P camus.pro