udf

    1热度

    1回答

    我创建了一个创建自动增量值的java函数,我还创建了一个基于此函数的配置单元UDF,它在配置单元中工作良好。我基于这个函数创建了一个Impala UDF,它返回'null'而不是自动增量整数。 这里是java UDF代码: import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.hive.ql.udf.UDFType

    2热度

    1回答

    我是Apache Pig和Python的新手。 当我尝试在Pig中注册Python函数时,它给出了与Jython相关的一些错误。我的Python脚本udf1.py将任何字符串转换为大写。 from pig_util import outputSchema @outputSchema('output_field_name:chararray') def charupper(x): b

    1热度

    1回答

    我正在尝试编写一个GenericUDF函数来为每个记录收集数组中的所有特定结构字段,并将它们返回到数组中。 我写的GenericUDF(如下),它似乎工作,但: 1)不,当我在一个外部表进行这方面的工作,它工作正常在管理表中,任何想法? 2)我很难在这方面写一个测试。我已附加到目前为止我的测试,并且它不起作用, 始终获得'java.util.ArrayList不能转换为org.apache.had

    3热度

    2回答

    我在Apache PIG中构建了一些UDF。我想让它们作为开源使用。那么有人可以帮助我找出我在哪里以及如何发布它们。

    5热度

    2回答

    我注意到,每当我删除单元格时,我的UDF都会重新计算。这会在删除整列时造成大量延迟,因为UDF会针对每个使用的单元格进行调用。因此,如果您使用的是1000 UDFS,那么删除列或单元格会将其调用1000次。 举例来说,把下面的UDF的模块中,然后用=的HelloWorld(称之为从工作表一堆倍) Function HelloWorld() HelloWorld = "HelloWorld" D

    1热度

    1回答

    我要求从HDFS读取数百万条记录,将它们充实并将它们作为XML文件存储在每个XML文件的一批10K条记录中。 我一直在试验Accumulator接口,并将我的pig.accumulative.batchsize设置为2进行测试。 但是,被调用的方法是“exec()”而不是累加器的“累加”方法。 我的UDF类的大纲如下: public class MyAccUDF extends EvalFunc

    4热度

    1回答

    我想知道如何在Piglatin中构建UDF时在exec()函数中获取输入模式。我可以从outputSchema()函数获取模式,但看起来结果不能被后端函数利用。 任何提示将非常感谢!