amazon-emr

0热度

1回答

我正在使用EMR-5.9.0，并且在更改了一些配置文件之后，我想重新启动服务以查看效果。我怎样才能做到这一点？我尝试使用列表initctl的查找服务的名称，如我在其他的答案，但没有运气看到...

0热度

1回答

我有以下文件夹中HDFS： hdfs://x.x.x.x:8020/Air/BOOK/AE/DOM/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/AE/INT/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/BH/INT/20171001/2017100101 hdfs://x.x.x.x:

0热度

1回答

Hive合并小ORC文件

我的输入包含大量的小ORC文件，我希望在一天的每一天结束，我想将数据拆分为100MB的块。我的输入和输出都是S3和环境中使用的电子病历，蜂巢参数，正在设置， set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

1热度

1回答

如何在设置DataPipeline以将DynamoDB数据导出到S3时计算'DynamoDB读取吞吐量比率'

我有一个带有〜16M记录的DynamoDB，其中每个记录的大小为4k。该表配置为自动调节目标利用率：70％，读取的最小配置容量：250和写入的最大配置容量：3000. 我试图设置数据管道将DynamoDB备份到S3。管道配置要求为Read Throughput Ratio，默认情况下为0.25。所以问题是如何计算Read Throughput Ratio备份大约1小时的表。我了解读取容量单位。

1热度

1回答

Spark EMR S3处理大量文件

我在S3中存在大约15000个文件（ORC），其中每个文件包含几分钟的数据和每个文件的大小在300-700MB之间变化。由于递归循环YYYY/MM/DD/HH24/MIN格式的目录非常昂贵，我创建了一个包含给定日期的所有S3文件列表的文件（objects_list.txt）并传递此文件作为输入到火花读API val file_list = scala.io.Source.fromInputStre

1热度

1回答

使用boto3将现有EMR群集复制到新群集

使用boto3创建新群集时，我想使用现有群集（已终止）的配置并将其克隆。据我所知，emr_client.run_job_flow要求提供所有配置（Instances, InstanceFleets etc）作为参数。有没有什么办法可以从现有的群集中进行克隆，就像我可以从ews的aws控制台那样进行克隆。

1热度

2回答

当群集大小很大时，Spark作业失败，小时成功

我有一个需要三个输入并执行两个外部连接的spark任务。数据采用键值格式（String，Array [String]）。代码的最重要的部分是： val partitioner = new HashPartitioner(8000) val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(inputRdd3, partitioner

6热度

1回答

如何调整EMR上的火花作业，以便在S3上快速写入大量数据

我有一个火花作业，我正在做两个数据框之间的外连接。第一个数据帧的大小为260 GB，文件格式为文本文件，分割为2200个文件，第二个数据帧的大小为2GB。将这两个文件加载到数据框本身需要10分钟。然后将大约260 GB的数据帧输出写入S3大约需要1个小时。这是我的集群信息。 emr-5.9.0 Master:1m3.2xlarge Core:c3.4large 5 machines

0热度

2回答

失败使用Spark在EMR

当AWS-EMR执行我的星火工作我试图读取从S3存储Avro的文件时，这个错误从S3阅读的Avro：这一点与版本： EMR - 5.5 0.0 EMR - 5.9.0 这是代码： val files = 0 until numOfDaysToFetch map { i => s"s3n://bravos/clicks/${fromDate.minusDays(i)}/*" } sp

0热度

1回答

pyspark模块不可用于spark正在使用的python实例

我正在使用我自己没有在AWS中设置的EMR。我想了解Python解释器的火花是使用在我的.bashrc我有以下设置export PYSPARK_PYTHON=/mnt/anaconda/bin/python 当我运行我们的火花提交命令我用sys.executable打印到路径python解释器，这确实是它使用的解释器。然而，当我专门去到该文件夹，运行Python的该实例与./python，