我要求从HDFS读取数百万条记录,将它们充实并将它们作为XML文件存储在每个XML文件的一批10K条记录中。Pig Accumulator接口实现的任何良好示例都有效吗?
我一直在试验Accumulator接口,并将我的pig.accumulative.batchsize设置为2进行测试。
但是,被调用的方法是“exec()”而不是累加器的“累加”方法。
我的UDF类的大纲如下:
public class MyAccUDF extends EvalFunc <Tuple> implements Accumulator <Tuple>{
public Tuple exec(Tuple input) throws IOException {
//..
}
public void accumulate(Tuple b) throws IOException {
//...
}
public void cleanup() {
//..
}
public Tuple getValue() {
//..
}
}