apache-spark-dataset

0热度

1回答

我有一个DataFrame这里是架构。的element数是未知的，但一些元素（例如element1和element3）的必须存在性和唯一性 root |-- context: struct (nullable = true) |---|-- key: string (nullable = true) | |-- data: struct (nullable = true) | | |--

0热度

2回答

在Spark数据集中创建具有运行总计的列

假设我们有一个包含两列（称为索引和值）的Spark数据集，按第一列（索引）排序。 ((1, 100), (2, 110), (3, 90), ...) 我们希望有一个数据集与具有运行总计值的第二列（值）的第三列。 ((1, 100, 100), (2, 110, 210), (3, 90, 300), ...) 任何建议，如何有效地做到这一点，有一次通过的数据？还是有没有可用于此的任何罐装

0热度

1回答

Spark数据集：如何在平面图之后更改列的别名？

我有两个我试图加入的spark数据集。连接键嵌套在数据集A中，所以在加入数据集B之前，我必须首先将其平面化。问题是，只要我平滑映射该字段，列名就成为默认的“_1”，“_2”等。是否有可能以某种方式更改别名？ A.flatMap(a => a.keys).join(B).where(...)

0热度

1回答

转换火花数据集在斯卡拉

自定义对象我想叫API，它预计Employee对象，如下图所示： public class EmployeeElements { private Set<Long> eIds; private Map<Long, List<EmployeeDetails>> employeeDetails; private Map<Long, List<Address>> addre

0热度

1回答

如何将GroupedDataset保存为实木复合地板或将其转换为DF

我正在使用spark 1.6.1。是否有任何API可用于将GroupDataset保存为实木复合地板文件。或将其转换为DataFrame。 E.g.我有一个自定义的对象“过程”，我已经将Dataframe转换为过程对象。之后，我正在通过patientID进行分组。我想分组为文件或将其作为数据框传递给其他函数。我没有获得任何存储API或将其转换为Dataframe。 val procedu

1热度

1回答

Spark数据集：表格数据与其创建的视图不完全相同

我的代码与此完全相似。只在这里更改变量和表名。请在输入时忽略任何语法错误。原始代码编译成功。 ------ CODE ------ Dataset<Row> test = sqlContext.sql("select * from test_table"); test.createOrReplaceTempView("temp_view_test"); sqlContext.sql("dr

0热度

1回答

Spark数据集或数据框聚合

我们有一个Spark版本2.0的MapR群集我们试图测量当前在TEZ引擎上运行的Hive查询的性能差异，然后在Spark-sql上运行它，只需编写在.hql文件中查询sql查询，然后通过shell文件调用它。查询中包含很多Join，这些Join肯定会创建多个阶段，并且在这种情况下将会发生混洗，那么最合适的选择是什么？这是真的，数据集，星火比Dataframes较慢像GROUPBY，最大值，最

1热度

1回答

星火数据集选择重新计算

我知道星火知道如何分配需要为将在例如另一个节点故障的情况下，开始了一个新的节点上完成的工作。我想知道这是否可以在其他用例中使用。假设我有转换和操作的树。当其中一个数据集/数据框得到更新时会发生什么（例如，导入了新文件）。在这种情况下，我只想重复那些受到影响并与此变化相关联的转换和操作。其他不相关的转换和操作应该从缓存中使用，因为它们不受影响。现在，我应该只有一些这些数据框和转换和行动，我可以

0热度

1回答

从斯卡拉JAVA对象创建火花数据集，spark 1.6

我在外部jar中设置了pojos，我想从这些对象中创建Dataset。如果我从Scala案例类创建数据集，那么我可以根据期望创建数据集。如果我试图做与JAVA对象相同，它将一列中的所有数据作为一个对象。 case class patientDiagnosis(patientId: Long, visitId: Long, diagnosisCode: String, isPrimaryDiag

0热度

1回答

Spark可以直接将数据读入嵌套的case类吗？

假设您有一个包含三列的CSV：item,username和userid。它是利用星火的数据集API在读这一个相当简单的事情： case class Flat(item: String, username: String, userid: String) ds = sparkSession.read.csv("path/to/data").toDF("item", "username", "use