camus

    1热度

    1回答

    我们已经成功运行加缪一年左右,成功地从卡夫卡(版本0.82)中提取avro有效载荷,并将其作为.avro文件存储在HDFS中,只需使用几个卡夫卡话题。最近,我们公司内的一个新团队在预生产环境中注册了约60个新主题,并开始向这些主题发送数据。该团队在将数据路由到kafka主题时犯了一些错误,当Camus将这些有效载荷反序列化为这些主题时,会导致错误。 由于超过了“失败的其他”错误阈值,加缪作业失败。

    0热度

    1回答

    我刚刚开始与加缪。我计划每隔一小时运行一次camus工作。我们每小时收到80000000条消息(平均大小约为4KB)。 如何设置以下属性: # max historical time that will be pulled from each partition based on event timestamp kafka.max.pull.hrs=1 # events with a time

    0热度

    2回答

    我刚开始与加缪。 我打算每隔1小时运行一次加缪。我们每小时左右~消息,平均消息大小为4KB(我们在卡夫卡有一个单独的主题)。 我第一次尝试使用10映射器,复制一小时的数据需要花费大约2小时,并创建了大小约为7GB的10个文件。 然后我试图300映射器,它把时间降到〜1小时。但它创建了11个文件。后来,我用150 mappers试了一下,花了大约30分钟。 那么,我该如何选择映射器的数量呢?另外,我

    0热度

    1回答

    我正在运行gobblin,使用3节点EMR集群将数据从kafka移动到s3。我在hadoop 2.6.0上运行,并且我还针对2.6.0构建了gobblin。 看起来好像map-reduce作业成功运行。在我的hdfs我看到指标和工作目录。指标有一些文件,但工作目录为空。 S3存储桶应该有最终的输出,但没有数据。并在最后它说 输出任务状态路径/ gooblinOutput /工作/ GobblinK

    -1热度

    1回答

    您能否帮我设置camus或gobblin来存储来自Kafka的HDFS消息。一个实例可能很棒。 Gobblin仍处于孵化阶段,camus已逐步淘汰。所以最好使用哪一个。 我下载gobblin跑gobblin-standalone.sh的开始,但我得到的错误 环境变量GOBBLIN_JOB_CONFIG_DIR没有设置! 。

    0热度

    1回答

    我越来越 Exception in thread "main" java.lang.NoClassDefFoundError: com/linkedin/camus/etl/IEtlKey. 在运行命令: hadoop jar camus-etl-kafka-0.1.0-SNAPSHOT.jar com.linkedin.camus.etl.kafka.CamusJob -P camus.pro