我想扩展hello世界程序的hadoop字数,以便能够计算输入文件中字母的数量。猪脚本来计算文件中的字母数
我写了这个到目前为止,我无法弄清楚这个代码有什么问题。任何帮助确定问题将不胜感激。
A = load '/tmp/alice.txt';
B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;
C = filter B by word matches '\\w+';
D = foreach C generate flatten(REGEX_EXTRACT_ALL(word, '([a-zA-Z])')) as letter;
E = group D by letter;
F = foreach E generate COUNT(D), group;
store F into '/tmp/alice_wordcount';
通过字母数我的意思是每个字母出现的次数的计数。 – midnightsoul
请不要破坏你的问题。 – hichris123
...也没有答案 –