从spark 2.0.1开始我有一些问题。我看了很多文件,但至今未能找到足够的答案:Spark 2.0数据集vs DataFrame
- 是什么
df.select("foo")
df.select($"foo")
- 之间的区别做我理解正确的是
myDataSet.map(foo.someVal)
是typesafe和wi将不会转换为RDD
,但保留在DataSet表示中/无额外的开销(2.0.0的性能)
- 所有其他命令选择,..只是语法糖。它们不是类型安全的,可以使用地图代替。没有map语句,我怎么能
df.select("foo")
类型安全?- 为什么我应该使用UDF/UADF而不是地图(假设地图停留在数据集表示中)?
有一个项目,旨在为星火更多类型的安全而有效的执行路径上停留:[typelevel /无框](https://github.com/typelevel/frameless) –