apache-spark-dataset

8热度

1回答

我还在努力理解最近推出的Spark Datasets的全部功能。是否存在何时使用RDD以及何时使用数据集的最佳做法？在他们的announcement Databricks解释说，通过使用数据集可以实现运行时间和内存的大幅减少。尽管如此，还是声称数据集的设计与现有的RDD API一起工作。这只是对向下兼容性的参考，或者是否有情况下人们更喜欢使用数据集上的RDD？

13热度

3回答

Spark数据集API - 加入

我正在尝试使用Spark Dataset API，但我在执行简单连接时遇到了一些问题。比方说，我有两个数据集字段：date | value，然后在DataFrame的情况下，我加入会是什么样子： val dfA : DataFrame val dfB : DataFrame dfA.join(dfB, dfB("date") === dfA("date")) 然而，对于Dataset存

0热度

1回答

如何在Spark数据集中创建一个TypedColumn并对其进行操作？

我正在尝试使用mapGroups执行聚合，它返回SparseMatrix作为其中一列，然后对列进行求和。我为映射行创建了一个case class模式以提供列名称。矩阵列输入org.apache.spark.mllib.linalg.Matrix。如果在执行汇总（select(sum("mycolumn")）之前未运行toDF，则会出现一个类型不匹配错误（required: org.apache.

9热度

2回答

为什么使用案例类编码JSON时出现错误“无法找到存储在数据集中的类型的编码器”？

我已经写了火花的工作： object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val ct

4热度

1回答

如何使用spark组数据集

我正在使用Spark Dataset（Spark 1.6.1版本）。下面是我的代码 object App { val conf = new SparkConf() .setMaster("local") .setAppName("SparkETL") val sc = new SparkContext(conf) sc.setLogLevel("ERROR") val sqlCo

0热度

1回答

如何重命名通过Apache Spark中的GroupedDataset操作创建的新列？

如何在不将结果转换为DataFrame的情况下重命名count操作的列？ case class LogRow(id: String, location: String, time: Long) case class KeyValue(key: (String, String), value: Long) val log = LogRow("1", "a", 1) :: LogRow("1",

4热度

3回答

如何从自定义类Person创建数据集？

我试图在Java中创建Dataset，所以我写了下面的代码： public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset = sqlContext.create

4热度

1回答

如何在Apache Spark数据集中为枚举列编写case类？

story1, 10, small story2, 20, medium sotry3, 3, small story4, 50, xlarge 我想将我的数据转换为数据集。我有一个专栏名称storyType（小，中，大，大）。所以我不知道该怎么写我的情况类在这种情况下 case class Story(name:String, point: Int, storyType: ???)

2热度

1回答

Spark中数组的数据集（1.6.1）

所以我一直在尝试重新格式化一个我正在使用Dataset API的项目，并且一直存在一些编码错误的问题。从我读过的内容来看，我认为我应该能够将原始值的数组存储在数据集中。但是，下面的类给我的编码错误： case class InvertedIndex(partition:Int, docs:Array[Int], indices:Array[Long], weights:Array[Double])