apache-spark-dataset

    3热度

    1回答

    我是Scala的新手。我试图将一个scala列表(它保存源数据框上的一些计算数据的结果)转换为Dataframe或Dataset。我没有找到任何直接的方法来做到这一点。 但是,我已经尝试了以下过程将我的列表转换为DataSet,但它似乎无法正常工作。我正在提供以下三种情况。 有人可以给我提供一些希望,如何做这种转换?谢谢。 import org.apache.spark.sql.{DataFram

    6热度

    2回答

    我在Scala中使用Spark,并且我的聚合列是匿名的。有没有一种方便的方法来重命名数据集中的多个列?我想加一个as的模式,但关键列是一个结构(由于groupBy操作),我不知道如何定义一个case class与StructType在其中。 我试着定义模式如下: val returnSchema = StructType(StructField("edge", StructType(StructF

    0热度

    1回答

    我很努力去理解如何创建数据集模式。我有一个聚合的数据集,其中一列中的关键元组和聚合的第二个: > ds.show +------+------+ | _1| _2| +------+------+ |[96,0]| 93439| |[69,0]|174386| |[42,0]| 12427| |[15,0]| 2090| |[80,0]| 2626| |[91,0]| 71963

    5热度

    2回答

    我想从简单的CSV文件创建Spark数据集。下面是CSV文件的内容: name,state,number_of_people,coolness_index trenton,nj,"10","4.5" bedford,ny,"20","3.3" patterson,nj,"30","2.2" camden,nj,"40","8.8" 这里是使数据集的代码: var location =

    4热度

    2回答

    在上火花数据集有多种生成的函数签名select()功能展望: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....) 这似乎在暗示我应该能够MyClass的成员直接引用,并类型安全,但我不知道如何... ds.select("member")当然工程..似乎ds.select(_.member)也可能以某种方式工作?

    0热度

    1回答

    我试图从另一个数据集以间隔来创建一个新的数据集其他数据集的部分星火数据集,例如,考虑数据集1作为输入,并dataset2作为输出: dataset1 = [1, 2, 3, 4, 5, 6] dataset2 = [1, 2, 2, 3, 3, 4, 4, 5, 5, 6] 我能够做到使用数组,但对于mlib数据集是必需的。 我与阵列码: def generateSeries(values:

    1热度

    1回答

    我正在使用spark 2.0.0。这里是我的代码: import org.apache.spark.sql.DataFrame import org.apache.spark.sql.SparkSession import org.apache.spark.sql.catalyst.analysis.EliminateSubqueryAliases import org.apache.spa

    2热度

    1回答

    使用DataFrame,可以使用df.withColumnRename("oldName", "newName")简单重命名列。在数据集中,由于每个字段都是键入和命名的,所以这似乎不可行。围绕我能想到的唯一工作就是对数据集使用map: case class Orig(a: Int, b: Int) case class OrigRenamed(a: Int, bNewName: Int) v

    0热度

    1回答

    我想使用数据集而不是数据框。 我读拼花文件,而想直接推断类型: val df: Dataset[Row] = spark.read.parquet(path) 我不想Dataset[Row]但Dataset做。 我知道我可以这样做: val df= spark.read.parquet(path).as[myCaseClass] 但是,我的数据有很多列!所以,如果我能避免写一个案例课,那就

    1热度

    1回答

    我应该如何正确使用spark 2.0数据集API解析日期时间? 有许多用于数据帧的样本/ RDD像 Spark date parsing Better way to convert a string field into timestamp in Spark How to change the column type from String to Date in DataFrames? 类等 ca