0
我需要计算以rdd中的字母'A'开头的不同单词。使用python计算rdd中的特定单词
我知道数不同的单词,但我不知道有条件的单词。
words= myRDD.distinct().count()
print words
我需要计算以rdd中的字母'A'开头的不同单词。使用python计算rdd中的特定单词
我知道数不同的单词,但我不知道有条件的单词。
words= myRDD.distinct().count()
print words
你将不得不做一个过滤器,通过开始字母,然后计数。类似下面:
words = myRDD.filter(lambda x: x[0] == "a").distinct().count()
您也可以使用内置函数
myRDD.filter(lambda x: x.startswith('a'))
我们可以帮助,如果你没有定义什么是“RDD”。 –
弹性分布式数据集 –