2016-02-27 63 views
1

的子非零字符我有像在蜂房外部表蜂巢:计数在一个字符串

<id>^<count>^<distinct_count>|<id>^<count>^<distinct_count>|... 

的列下面的字符串有两种定界符。 |在一个实体级别和^上子实体水平

我具有由非零distinct_countscounts,这意味着给定的一个字符串我有计数的总和所定义的度量检查是否重复计数(或计数 - 我可以检查)是非零,如果它标记为flag为1.那么度量将是sum(flags)。我必须在下一步中将此度量标准存储在汇总表中。

请建议一种方法让我在蜂巢中做到这一点

回答

0

我认为这是不可能的。结束使用相同的外部Python映射器。

0

如果你想在一个字符串s计数的非零count数,它似乎要解决

length(
    regexp_replace(
     regexp_replace(s, "[^^|]*\\^0\\^[^^|]*\\|?", ""), 
     "[^^|]*\\^[^^|]*\\^[^^|]*\\|?", 
     "1" 
    ) 
) 

首先regexp_replace去除部分零count,第二regexp_replace替换单一的符号其余部分(它不一定是"1",任何符号都可以),因此length返回非零零件数count