我注意到,每当我删除单元格时,我的UDF都会重新计算。这会在删除整列时造成大量延迟,因为UDF会针对每个使用的单元格进行调用。因此,如果您使用的是1000 UDFS,那么删除列或单元格会将其调用1000次。 举例来说,把下面的UDF的模块中,然后用=的HelloWorld(称之为从工作表一堆倍) Function HelloWorld()
HelloWorld = "HelloWorld"
D
我要求从HDFS读取数百万条记录,将它们充实并将它们作为XML文件存储在每个XML文件的一批10K条记录中。 我一直在试验Accumulator接口,并将我的pig.accumulative.batchsize设置为2进行测试。 但是,被调用的方法是“exec()”而不是累加器的“累加”方法。 我的UDF类的大纲如下: public class MyAccUDF extends EvalFunc