2017-03-17 114 views
1

排序PyhonRDD我有一个result RDD,这是使用pyspark.mllib.fpmpyspark:使用对象属性

result RDD看起来创建:

print(result) 
result.take(5) 

PythonRDD[32] at RDD at PythonRDD.scala:48 
Out[18]: 
[FreqSequence(sequence=[['John']], freq=18980), 
FreqSequence(sequence=[['Mary']], freq=106), 
FreqSequence(sequence=[['John-Mary']], freq=381), 
FreqSequence(sequence=[['John-Ann']], freq=158), 
FreqSequence(sequence=[['Ann']], freq=433)] 

我怎么排序上述result RDD基于freq属性?谢谢!

回答

0

您可以使用keyfunc说法:

rdd.sortBy(lambda x: x.frequency) 
+0

不工作 “导入错误:没有名为 'UserString' 模块” 任何想法? – Edamame