apache-spark

1热度

3回答

非常新的火花/斯卡拉。我想知道是否有一种简单的方法来以列式方式聚合Array [Double]。这里有一个例子： c1 c2 c3 ------------------------- 1 1 [1.0, 1.0, 3.4] 1 2 [1.0, 0,0, 4.3] 2 1 [0.0, 0.0, 0.0] 2 3 [1.2, 1.1, 1.1] 然后，一旦聚集，我会看起来像一个表

-3热度

1回答

使用自定义函数的Pyspark

我是Scala Spark中的程序员，但我需要在项目中使用PySpark在Python中执行某些操作。我想知道如何在PySpark中使用自定义的行=>行图转换。例如：我有一个数据帧是myDF： id x1, x2 1 5 3 2 4 6 3 9 10 我想这个数据帧转换为另一个数据帧，与各行上的地图操作。所以我设计了一个map函数，它将一行作为输入，并生成一个新行作为输出。所以这是

3热度

1回答

的Bigtop docker-hadoop.sh无法启动

我使用的Bigtop 1.2.0流浪供应方运行良好，但是当我尝试使用泊坞置备了以下错误显示：命令 $ ./docker-hadoop.sh -c 3 错误 Environment check... Check docker: Docker version 17.09.0-ce, build afdb6d4 Check docker-compose: docker-compose version

0热度

1回答

csv是否使用pyspark分发的实木复合地板？

我有AWS EMR master node以下代码片段将csv文件转换为实木复合地板文件。 %pyspark csv_path = "s3://<bucket>/file.csv" p_path = "s3://<bucket>/file.parquet" df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)

3热度

1回答

如何平均分配数据集以避免歪斜的连接（和长时间运行的任务）？

我正在用databricks笔记本上的Spark数据集API编写应用程序。我有2个表格。一个是15亿行，其次是250万。两个表都包含电信数据，并且使用国家代码和数字的前5位完成连接。产量有550亿行。问题是我有偏斜的数据（长时间运行的任务）。无论我如何重新分配数据集，由于散列键的分布不均匀，我会得到长时间运行的任务。我试着用广播连接，试图坚持在内存等大表分区..... 什么是我选择这里？

2热度

1回答

如何访问Hive中的现有表？

我想用scala来访问spark应用程序中的HIVE。我的代码： val hiveLocation = "hdfs://master:9000/user/hive/warehouse" val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]").set("spark.sql.warehouse.dir

2热度

2回答

Spark：列值的百分比百分比

我想提高我的Spark Scala技能，我有这种情况下我找不到操作的方法，所以请指教！我有原始数据如下图所示波纹管是：我要计算的数列的每个结果的百分比。例如。最后一个错误值是64，占所有列值的百分比是多少。请注意，我用的sqlContext读取原始数据Dataframes：这里是我的代码： val df1 = df.groupBy(" Code") .agg(sum("count").al

0热度

1回答

星火错误：异常线程“main” java.lang.UnsupportedOperationException

我写一个斯卡拉/火花程序，会发现该雇员的薪水最高。员工数据可以CSV文件形式提供，而薪金列有数千个逗号分隔符，并且还有一个$前缀，例如$ 74,628.00。为了解决这个逗号和美元符号，我已经用Scala编写这将分割每行一个解析器功能“”然后每一列映射到各个变量被分配到一个案例类。我的解析器程序看起来像下面。为了消除逗号和美元符号，我使用替换函数将其替换为空，然后最终将类型转换为Int。 de

0热度

1回答

如何处理XML数据集？

我是火花和编程语言的新手。我需要一些帮助来解析基于每个标签的XML文件。这里是我的小例子输入文件： XML File: <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="myfile.xsl" ?> <bookstore specialty="novel"> <book style="autobiograp

5热度

1回答

如何将show操作符的输出读回数据集？

假设我们有以下的文本文件（df.show()命令的输出）： +----+---------+--------+ |col1| col2| col3| +----+---------+--------+ | 1|pi number|3.141592| | 2| e number| 2.71828| +----+---------+--------+ 现在我想读/解析它作为一个数据帧/