pyspark

0热度

1回答

我遇到以下scala示例，它解释了aggregateByKey。斯卡拉例：以上Scala代码 val pairs=sc.parallelize(Array(("a",3),("a",1),("b",7),("a",5))) import scala.collection.mutable.HashSet //the initial value is a void Set. Adding an

-2热度

3回答

什么是pyspark驱动程序？

我看到一个常见的设置来使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g开始pyspark，但如何驾驶员记忆从执行性记忆有什么不同？您能否解释一下驱动程序是什么以及如何在此设置影响pyspark工作流程/性能？谢谢！

0热度

1回答

PySpark中的ParamGridBuilder无法与LinearRegressionSGD配合使用

我试图弄清楚为什么LinearRegressionWithSGD不适用于Spark的ParamGridBuilder。从火花文档： lr = LinearRegression(maxIter=10) paramGrid = ParamGridBuilder()\ .addGrid(lr.regParam, [0.1, 0.01]) \ .addGrid(lr.fitIntercept, [F

-1热度

1回答

如何使用RDD去除PySpark中的某些正则表达式？

假设我试图删除这个正则表达式“RT \ s * @ USER \ w \ w {8}：\ s *” 并且我想在我的RDD中删除这种形式的正则表达式。我现在RDD是： text = sc.textFile(...) delimited = text.map(lambda x: x.split("\t")) 和这里就是我试图删除正则表达式的一部分。我试着做下面的RDD转换来摆脱每一个匹配这个

0热度

1回答

如何将数组转换为串有效地在python/pyspark

我有以下模式的DF： root |-- col1: string (nullable = true) |-- col2: array (nullable = true) | |-- element: string (containsNull = true) 在其中的一列，COL2是阵列[1个＃B，2·B ，3＃C]。我想将它转换为这种字符串格式1＃b，2＃b，3＃c。我目前做这通过下面

0热度

1回答

不同列上的不同聚合操作pyspark

我想将不同的聚合函数应用于pyspark数据框中的不同列。继计算器一些建议，我尝试这样做： the_columns = ["product1","product2"] the_columns2 = ["customer1","customer2"] exprs = [mean(col(d)) for d in the_columns1, count(col(c)) for c in the_

0热度

2回答

RDD JSON文件处理

我使用上Pyspark以下代码导入从BigQuery资料： table_data = sc.newAPIHadoopRDD( 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat', 'org.apache.hadoop.io.LongWritable', 'com.google.gson.Js

-1热度

1回答

创建点播阿帕奇星火网络服务

我完全新的Web服务的独立，我想创建它是这样一个Web服务：用户输入一些字到网页。 Apache Spark作业在后端启动，它将这些词作为输入参数使用该作业的结果将被处理并显示回网页。我想让它成为一个独立的产品，而不使用任何Spark-as-a-service服务，例如Bluemix等现在，我正在考虑采用类似这样的方式：后端的Python服务器接受请求并输入新的Spark作业。当spark

0热度

1回答

使用Spark_sklearn进行嵌套交叉验证GridSearchCV产生SPARK-5063错误

使用Spark_sklearn执行嵌套交叉验证GridSearchCV作为内部cv和sklearn cross_validate/cross_val_score作为外部cv结果“看起来您试图从广播变量引用SparkContext ，行动或转型“的错误。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou

0热度

1回答

Pyspark：在UDF中通过动态列

尝试在UDF中逐个发送列的列表，但使用for循环但出现错误，即数据框未找到col_name。目前在列表list_col我们有两列，但它可以改变。所以我想写一个代码，它适用于列的每一个列表。在这段代码中，我一次连接一列的行，行的值是结构格式即列表中的列表。对于每一个空，我必须给空间。 list_col=['pcxreport','crosslinediscount'] def struct