pyspark

    0热度

    1回答

    我遇到以下scala示例,它解释了aggregateByKey。 斯卡拉例:以上Scala代码 val pairs=sc.parallelize(Array(("a",3),("a",1),("b",7),("a",5))) import scala.collection.mutable.HashSet //the initial value is a void Set. Adding an

    -2热度

    3回答

    我看到一个常见的设置来使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g开始pyspark,但如何驾驶员记忆从执行性记忆有什么不同?您能否解释一下驱动程序是什么以及如何在此设置影响pyspark工作流程/性能? 谢谢!

    0热度

    1回答

    我试图弄清楚为什么LinearRegressionWithSGD不适用于Spark的ParamGridBuilder。从火花文档: lr = LinearRegression(maxIter=10) paramGrid = ParamGridBuilder()\ .addGrid(lr.regParam, [0.1, 0.01]) \ .addGrid(lr.fitIntercept, [F

    -1热度

    1回答

    假设我试图删除这个正则表达式“RT \ s * @ USER \ w \ w {8}:\ s *” 并且我想在我的RDD中删除这种形式的正则表达式。 我现在RDD是: text = sc.textFile(...) delimited = text.map(lambda x: x.split("\t")) 和这里就是我试图删除正则表达式的一部分。 我试着做下面的RDD转换来摆脱每一个匹配这个

    0热度

    1回答

    我有以下模式的DF: root |-- col1: string (nullable = true) |-- col2: array (nullable = true) | |-- element: string (containsNull = true) 在其中的一列,COL2是阵列[1个#B,2·B ,3#C]。我想将它转换为这种字符串格式1#b,2#b,3#c。 我目前做这通过下面

    0热度

    1回答

    我想将不同的聚合函数应用于pyspark数据框中的不同列。继计算器一些建议,我尝试这样做: the_columns = ["product1","product2"] the_columns2 = ["customer1","customer2"] exprs = [mean(col(d)) for d in the_columns1, count(col(c)) for c in the_

    0热度

    2回答

    我使用上Pyspark以下代码导入从BigQuery资料: table_data = sc.newAPIHadoopRDD( 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat', 'org.apache.hadoop.io.LongWritable', 'com.google.gson.Js

    -1热度

    1回答

    我完全新的Web服务的独立,我想创建它是这样一个Web服务: 用户输入一些字到网页。 Apache Spark作业在后端启动,它将这些词作为输入参数使用 该作业的结果将被处理并显示回网页。 我想让它成为一个独立的产品,而不使用任何Spark-as-a-service服务,例如Bluemix等 现在,我正在考虑采用类似这样的方式:后端的Python服务器接受请求并输入新的Spark作业。当spark

    0热度

    1回答

    使用Spark_sklearn执行嵌套交叉验证GridSearchCV作为内部cv和sklearn cross_validate/cross_val_score作为外部cv结果“看起来您试图从广播变量引用SparkContext ,行动或转型“的错误。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou

    0热度

    1回答

    尝试在UDF中逐个发送列的列表,但使用for循环但出现错误,即数据框未找到col_name。目前在列表list_col我们有两列,但它可以改变。所以我想写一个代码,它适用于列的每一个列表。在这段代码中,我一次连接一列的行,行的值是结构格式即列表中的列表。对于每一个空,我必须给空间。 list_col=['pcxreport','crosslinediscount'] def struct