我的输入包含大量的小ORC文件,我希望在一天的每一天结束,我想将数据拆分为100MB的块。 我的输入和输出都是S3和环境中使用的电子病历, 蜂巢参数,正在设置, set hive.msck.path.validation=ignore;
set hive.exec.reducers.bytes.per.reducer=256000000;
SET hive.exec.dynamic.parti
我在S3中存在大约15000个文件(ORC),其中每个文件包含几分钟的数据和每个文件的大小在300-700MB之间变化。由于递归循环YYYY/MM/DD/HH24/MIN格式的目录非常昂贵,我创建了一个包含给定日期的所有S3文件列表的文件(objects_list.txt)并传递此文件作为输入到火花读API val file_list = scala.io.Source.fromInputStre
我有一个需要三个输入并执行两个外部连接的spark任务。数据采用键值格式(String,Array [String])。代码的最重要的部分是: val partitioner = new HashPartitioner(8000)
val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(inputRdd3, partitioner