2017-04-21 58 views
0

我需要计算以rdd中的字母'A'开头的不同单词。使用python计算rdd中的特定单词

我知道数不同的单词,但我不知道有条件的单词。

words= myRDD.distinct().count() 
print words 
+0

我们可以帮助,如果你没有定义什么是“RDD”。 –

+0

弹性分布式数据集 –

回答

0

你将不得不做一个过滤器,通过开始字母,然后计数。类似下面:

words = myRDD.filter(lambda x: x[0] == "a").distinct().count() 

您也可以使用内置函数

myRDD.filter(lambda x: x.startswith('a'))