udf

1热度

1回答

我创建了一个创建自动增量值的java函数，我还创建了一个基于此函数的配置单元UDF，它在配置单元中工作良好。我基于这个函数创建了一个Impala UDF，它返回'null'而不是自动增量整数。这里是java UDF代码： import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.hive.ql.udf.UDFType

2热度

1回答

在Apache Pig中使用Python UDF

我是Apache Pig和Python的新手。当我尝试在Pig中注册Python函数时，它给出了与Jython相关的一些错误。我的Python脚本udf1.py将任何字符串转换为大写。 from pig_util import outputSchema @outputSchema('output_field_name:chararray') def charupper(x): b

1热度

1回答

GenericUDF函数从结构数组中提取字段

我正在尝试编写一个GenericUDF函数来为每个记录收集数组中的所有特定结构字段，并将它们返回到数组中。我写的GenericUDF（如下），它似乎工作，但： 1）不，当我在一个外部表进行这方面的工作，它工作正常在管理表中，任何想法？ 2）我很难在这方面写一个测试。我已附加到目前为止我的测试，并且它不起作用，始终获得'java.util.ArrayList不能转换为org.apache.had

3热度

2回答

在哪里可以贡献Apache Pig UDF？

我在Apache PIG中构建了一些UDF。我想让它们作为开源使用。那么有人可以帮助我找出我在哪里以及如何发布它们。

5热度

2回答

需要停止UDF重新计算当不相关的单元格被删除

我注意到，每当我删除单元格时，我的UDF都会重新计算。这会在删除整列时造成大量延迟，因为UDF会针对每个使用的单元格进行调用。因此，如果您使用的是1000 UDFS，那么删除列或单元格会将其调用1000次。举例来说，把下面的UDF的模块中，然后用=的HelloWorld（称之为从工作表一堆倍） Function HelloWorld() HelloWorld = "HelloWorld" D

1热度

1回答

Pig Accumulator接口实现的任何良好示例都有效吗？

我要求从HDFS读取数百万条记录，将它们充实并将它们作为XML文件存储在每个XML文件的一批10K条记录中。我一直在试验Accumulator接口，并将我的pig.accumulative.batchsize设置为2进行测试。但是，被调用的方法是“exec（）”而不是累加器的“累加”方法。我的UDF类的大纲如下： public class MyAccUDF extends EvalFunc

4热度

1回答

如何在Pig UDF的exec函数中获得输入模式

我想知道如何在Piglatin中构建UDF时在exec（）函数中获取输入模式。我可以从outputSchema（）函数获取模式，但看起来结果不能被后端函数利用。任何提示将非常感谢！