我试图在Java中创建Dataset
,所以我写了下面的代码:如何从自定义类Person创建数据集?
public Dataset createDataset(){
List<Person> list = new ArrayList<>();
list.add(new Person("name", 10, 10.0));
Dataset<Person> dateset = sqlContext.createDataset(list, Encoders.bean(Person.class));
return dataset;
}
Person
类是一个内部类。然而
星火抛出以下异常:
org.apache.spark.sql.AnalysisException: Unable to generate an encoder for inner class `....` without access to the scope that this class was defined in. Try moving this class out of its parent class.;
at org.apache.spark.sql.catalyst.encoders.ExpressionEncoder$$anonfun$2.applyOrElse(ExpressionEncoder.scala:264)
at org.apache.spark.sql.catalyst.encoders.ExpressionEncoder$$anonfun$2.applyOrElse(ExpressionEncoder.scala:260)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scala:243)
at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scala:243)
at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:53)
at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:242)
如何做正确?
使用[火花笔记本](http://spark-notebook.io)与scala 0.11的确,在case类定义之后并在dataframe命令中使用它之前,添加'org.apache.spark.sql.catalyst.encoders.OuterScopes.addOuterScope(this)'解决了这个问题。 –
我在问addOuterScope方法,如果你知道为什么必须添加编码器才能正常工作 – eliasah
非常感谢您的更新。我曾问过你,因为我在http://stackoverflow.com/a/40232936/3415409之前正在研究这个问题 – eliasah