apache-spark-dataset

    0热度

    1回答

    我有一个DataFrame这里是架构。的element数是未知的,但一些元素(例如element1和element3)的必须存在性和唯一性 root |-- context: struct (nullable = true) |---|-- key: string (nullable = true) | |-- data: struct (nullable = true) | | |--

    0热度

    2回答

    假设我们有一个包含两列(称为索引和值)的Spark数据集,按第一列(索引)排序。 ((1, 100), (2, 110), (3, 90), ...) 我们希望有一个数据集与具有运行总计值的第二列(值)的第三列。 ((1, 100, 100), (2, 110, 210), (3, 90, 300), ...) 任何建议,如何有效地做到这一点,有一次通过的数据?还是有没有可用于此的任何罐装

    0热度

    1回答

    我有两个我试图加入的spark数据集。连接键嵌套在数据集A中,所以在加入数据集B之前,我必须首先将其平面化。问题是,只要我平滑映射该字段,列名就成为默认的“_1”,“_2”等。是否有可能以某种方式更改别名? A.flatMap(a => a.keys).join(B).where(...)

    0热度

    1回答

    自定义对象我想叫API,它预计Employee对象,如下图所示: public class EmployeeElements { private Set<Long> eIds; private Map<Long, List<EmployeeDetails>> employeeDetails; private Map<Long, List<Address>> addre

    0热度

    1回答

    我正在使用spark 1.6.1。 是否有任何API可用于将GroupDataset保存为实木复合地板文件。 或将其转换为DataFrame。 E.g.我有一个自定义的对象“过程”,我已经将Dataframe转换为过程对象。 之后,我正在通过patientID进行分组。 我想分组为文件或将其作为数据框传递给其他函数。 我没有获得任何存储API或将其转换为Dataframe。 val procedu

    1热度

    1回答

    我的代码与此完全相似。只在这里更改变量和表名。请在输入时忽略任何语法错误。原始代码编译成功。 ------ CODE ------ Dataset<Row> test = sqlContext.sql("select * from test_table"); test.createOrReplaceTempView("temp_view_test"); sqlContext.sql("dr

    0热度

    1回答

    我们有一个Spark版本2.0的MapR群集 我们试图测量当前在TEZ引擎上运行的Hive查询的性能差异,然后在Spark-sql上运行它,只需编写在.hql文件中查询sql查询,然后通过shell文件调用它。 查询中包含很多Join,这些Join肯定会创建多个阶段,并且在这种情况下将会发生混洗,那么最合适的选择是什么? 这是真的,数据集,星火比Dataframes较慢像GROUPBY,最大值,最

    1热度

    1回答

    我知道星火知道如何分配需要为将在例如另一个节点故障的情况下,开始了一个新的节点上完成的工作。 我想知道这是否可以在其他用例中使用。 假设我有转换和操作的树。当其中一个数据集/数据框得到更新时会发生什么(例如,导入了新文件)。在这种情况下,我只想重复那些受到影响并与此变化相关联的转换和操作。其他不相关的转换和操作应该从缓存中使用,因为它们不受影响。 现在,我应该只有一些这些数据框和转换和行动,我可以

    0热度

    1回答

    我在外部jar中设置了pojos,我想从这些对象中创建Dataset。 如果我从Scala案例类创建数据集,那么我可以根据期望创建数据集。 如果我试图做与JAVA对象相同,它将一列中的所有数据作为一个对象。 case class patientDiagnosis(patientId: Long, visitId: Long, diagnosisCode: String, isPrimaryDiag

    0热度

    1回答

    假设您有一个包含三列的CSV:item,username和userid。它是利用星火的数据集API在读这一个相当简单的事情: case class Flat(item: String, username: String, userid: String) ds = sparkSession.read.csv("path/to/data").toDF("item", "username", "use