apache-spark

    1热度

    3回答

    非常新的火花/斯卡拉。我想知道是否有一种简单的方法来以列式方式聚合Array [Double]。这里有一个例子: c1 c2 c3 ------------------------- 1 1 [1.0, 1.0, 3.4] 1 2 [1.0, 0,0, 4.3] 2 1 [0.0, 0.0, 0.0] 2 3 [1.2, 1.1, 1.1] 然后,一旦聚集,我会看起来像一个表

    -3热度

    1回答

    我是Scala Spark中的程序员,但我需要在项目中使用PySpark在Python中执行某些操作。 我想知道如何在PySpark中使用自定义的行=>行图转换。 例如:我有一个数据帧是myDF: id x1, x2 1 5 3 2 4 6 3 9 10 我想这个数据帧转换为另一个数据帧,与各行上的地图操作。 所以我设计了一个map函数,它将一行作为输入,并生成一个新行作为输出。所以这是

    3热度

    1回答

    我使用的Bigtop 1.2.0流浪供应方运行良好,但是当我尝试使用泊坞置备了以下错误显示: 命令 $ ./docker-hadoop.sh -c 3 错误 Environment check... Check docker: Docker version 17.09.0-ce, build afdb6d4 Check docker-compose: docker-compose version

    0热度

    1回答

    我有AWS EMR master node以下代码片段将csv文件转换为实木复合地板文件。 %pyspark csv_path = "s3://<bucket>/file.csv" p_path = "s3://<bucket>/file.parquet" df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)

    3热度

    1回答

    我正在用databricks笔记本上的Spark数据集API编写应用程序。 我有2个表格。一个是15亿行,其次是250万。两个表都包含电信数据,并且使用国家代码和数字的前5位完成连接。产量有550亿行。问题是我有偏斜的数据(长时间运行的任务)。无论我如何重新分配数据集,由于散列键的分布不均匀,我会得到长时间运行的任务。 我试着用广播连接,试图坚持在内存等大表分区..... 什么是我选择这里?

    2热度

    1回答

    我想用scala来访问spark应用程序中的HIVE。 我的代码: val hiveLocation = "hdfs://master:9000/user/hive/warehouse" val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]").set("spark.sql.warehouse.dir

    2热度

    2回答

    我想提高我的Spark Scala技能,我有这种情况下我找不到操作的方法,所以请指教! 我有原始数据如下图所示波纹管是: 我要计算的数列的每个结果的百分比。例如。最后一个错误值是64,占所有列值的百分比是多少。请注意,我用的sqlContext读取原始数据Dataframes: 这里是我的代码: val df1 = df.groupBy(" Code") .agg(sum("count").al

    0热度

    1回答

    我写一个斯卡拉/火花程序,会发现该雇员的薪水最高。员工数据可以CSV文件形式提供,而薪金列有数千个逗号分隔符,并且还有一个$前缀,例如$ 74,628.00。 为了解决这个逗号和美元符号,我已经用Scala编写这将分割每行一个解析器功能“”然后每一列映射到各个变量被分配到一个案例类。 我的解析器程序看起来像下面。为了消除逗号和美元符号,我使用替换函数将其替换为空,然后最终将类型转换为Int。 de

    0热度

    1回答

    我是火花和编程语言的新手。我需要一些帮助来解析基于每个标签的XML文件。 这里是我的小例子 输入文件: XML File: <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="myfile.xsl" ?> <bookstore specialty="novel"> <book style="autobiograp

    5热度

    1回答

    假设我们有以下的文本文件(df.show()命令的输出): +----+---------+--------+ |col1| col2| col3| +----+---------+--------+ | 1|pi number|3.141592| | 2| e number| 2.71828| +----+---------+--------+ 现在我想读/解析它作为一个数据帧/