的一部分,我有这样的 a = load 'large_file' using PigStorage(',')
b = filter a by $16 = '12345678'
c = filter a by $16 = '456'
d = union b,c
store d into 'output.csv'
猪剧本。如果我想用值的列表来筛选。例如,我想在第16列有一个大值列表中的值时
我有以下数据: address|some_mask_value
123 Main | 10100011110
124 Main | 10100011100
我使用Apache猪版0.15.0.2.4.2.0-258 我“M试图在第二到最后一个字符来创建一个指标‘some_mask_value’是1。我已经试过: load_data = LOAD '/myfile.txt' USING Pi
我有这段代码。 large = load 'a super large file'
CC = FILTER large BY $19 == 'abc OR $20 == 'abc'
OR $19 == 'def' or $20 == 'def' ....;
或条件的数量可能会上升到100甚至数千。 有没有更好的方法来做到这一点?