我正在使用aws .net sdk运行s3distcp作业到EMR,以使用--groupBy arg连接文件夹中的所有文件。但无论我尝试过的“groupBy”arg如何,它始终失败,或者只是复制文件而不进行连接,如果没有在arg列表中指定--groupBy。如何EMR S3DistCp组正确?
该文件夹中的文件是火花saveAsTextFiles命名象下面这样:
部分0000
部分0001
部分-0002
...
...
step.HadoopJarStep = new HadoopJarStepConfig
{
Jar = "/usr/share/aws/emr/s3-dist-cp/lib/s3-dist-cp.jar",
Args = new List<string>
{
"--s3Endpoint=s3-eu-west-1.amazonaws.com",
"--src=s3://foo/spark/result/bar" ,
"--dest=s3://foo/spark/result-merged/bar",
"--groupBy=(part.*)",
"--targetSize=256"
}
};
我有一个非常类似的问题,你有什么,但我的文件夹是多一点嵌套..可以请你看看https://stackoverflow.com/questions/46833387/using-groupby-while-copying-从-HDFS到S3到合并-文件中之文件夹 – Amistad