emr

    -2热度

    2回答

    我S3目录是 /sssssss/xxxxxx/rrrrrr/xx/file1 /sssssss/xxxxxx/rrrrrr/xx/file2 /sssssss/xxxxxx/rrrrrr/xx/file3 /sssssss/xxxxxx/rrrrrr/yy/file4 /sssssss/xxxxxx/rrrrrr/yy/file5 /sssssss/xxxxxx/rrrrrr/yy/fi

    0热度

    1回答

    跨张贴由:https://forums.aws.amazon.com/thread.jspa?messageID=766424 嘿, 尝试此策略应用到核心实例组: { "Constraints": { "MinCapacity": 0, "MaxCapacity": 2 }, "Rules": [ { "Name":

    2热度

    2回答

    我目前正在使用连接到RDS的EMR集群来收集2个表。 创建的两个RDD非常庞大,但我可以执行.take(x)操作。 我还可以执行更复杂的操作,如: info_rdd = somerdd.map(lambda x: (x[1], x[2])).groupByKey().map(some_lambda) apps_rdd = apps.join(info_rdd).map(lambda x: (x[

    0热度

    1回答

    我试图训练一个EMR集群上的GBM与60 c4.8xlarge节点使用苏打水。该进程成功运行至特定的数据大小。一旦我达到某个数据大小(训练示例的数量),该过程会在SpreadRDDBuilder.scala的收集阶段中冻结,并在一小时后死亡。发生这种情况时,网络内存继续增长,但Spark阶段没有进展(见下文),CPU使用率和网络流量也很少。我试过增加执行程序和驱动程序内存以及num-executo

    1热度

    1回答

    我需要在自定义UDF中创建一些资源(具有二进制数据的Geocoder)对象。这些资源应该为UDF创建一次,并且每个映射器都将保存此资源的单个实例。因此,我使用创建此资源并保存其静态引用的单个工厂。 要配置这些资源,我正在使用关闭挂钩,如果我从控制台退出而不是处理所有资源,它与Hive CLI控制台(Putty)一起工作正常。 但我无法使用Hue UI处置这些资源,即使我关闭了配置单元会话,仍然存在

    1热度

    1回答

    我有一个Java Spark作业,它可以在EC2上以独立模式手动部署Spark 1.6.0。 我正在使用YARN将此作业提交给主站上的EMR 5.3.0群集,但它失败。 火花提交线是, spark-submit --class <startclass> --master yarn --queue default --deploy-mode cluster --conf spark.eventLog

    5热度

    2回答

    我需要在EMR中设置自定义环境变量,以便在运行Spark应用程序时可用。 我曾尝试添加此: ... --configurations '[ { "Classification": "spark-env", "Configurations": [

    0热度

    3回答

    我正在EMR上运行Spark工作,但需要创建检查点。我尝试使用S3,但得到这个错误消息 17/02/24 14:34:35 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://spark- jobs/checkpoint/31d57e4f-

    6热度

    2回答

    我无法覆盖和使用Amazon EMR上的自定义log4j.properties。我在EMR上运行Spark(Yarn),并尝试使用Spark-Submit中的所有下列组合尝试使用自定义log4j。 --driver-java-options "-Dlog4j.configuration=hdfs://host:port/user/hadoop/log4j.properties" --conf

    1热度

    2回答

    我正在使用s3disctcp从S3复制31,16,886个文件(300 GB)到HDFS,并花了4天才能复制10,48576个文件。我杀了这个工作,需要理解我如何减少这个时间,或者我做错了什么。 s3-dist-cp --src s3://xml-prod/ --dest hdfs:///Output/XML/ 它在AWS EMR机器上。