包装pyspark mllib
和pyspark ml
有什么区别? :`pyspark mllib`与`pyspark ml`包装
https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html
https://spark.apache.org/docs/latest/api/python/pyspark.ml.html
pyspark mllib
似乎是目标算法在数据帧的水平pyspark ml
一个不同之处,我发现是pyspark ml
工具pyspark.ml.tuning.CrossValidator
而pyspark mllib
没有。
我的理解是图书馆应该使用的,如果在Apache Spark框架上实现算法是mllib
但似乎有分裂?
在没有转换类型的情况下,每个框架之间似乎没有互操作性,因为它们都包含不同的包结构。
+1,根据我的经验,在算法实现方面实现RDD级别的速度要快于数据帧级别,但我倾向于选择函数(rdd)而不是sql(数据框架)样式。 –