0
我正在加载文件到PIG。在使用STRSPLIT(doc,',')
分割记录之后,我想使用TRIM()
清理数据以消除多余的空白。我似乎无法弄清楚如何在记录中的每个单词上使用TRIM()
。例如:使用TRIM()在个人记录
((car , truck, jeep , honk)).
的架构是这样的:tokens:(t:(w:chararray))
我已经试过
clean_docs = FOREACH tokenized_docs GENERATE TRIM(tokens.$0.w) AS tokens:(t:(w:chararray));
等诸多变化,似乎并不能使它发挥作用。 请帮忙! 谢谢!