0
我可以统计整个文档中每个字符的总数。计数每行的字符数pyspark
我的文档:
ATATCCCCGGGAT
ATCGATCGATAT
计算文档中的每个字符的总数:
结果:
[(u'A', 7), (u'C', 6), (u'T', 7), (u'G', 5)]
我实现
counts=data.map(lambda x:[(c,1)for c in x])
for row in counts.collect():
print sc.parallelize(row).reduceByKey(lambda x,y:x+y).collect()
有没有更好的方法来做到这一点?
通常尽量避免或最大限度地减少ByKey操作,如果可以 – grepe