pyspark

    0热度

    1回答

    我有一个LDA的一个pyspark数据帧像这样的结果: topicIndices.filter("topic > 3").show(10, truncate=True) +-----+--------------------+--------------------+ |topic| termIndices| termWeights| +-----+-----------------

    1热度

    1回答

    我已经安装了spark版本:spark-2.2.0-bin-hadoop2.7。 我使用Windows 10 OS 我的Java版本1.8.0_144 我已经把我的环境变量: SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7 HADOOP_HOME D:\Hadoop (where I put bin\winutils.exe) PYSPARK_DRIVER_

    1热度

    2回答

    我有一个名为df的pyspark数据框。 ONE LINE EXAMPLE: df.take(1) [Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")] 我有假期一天的清单: holydays=[u'2016-12-25',u'2016-12-08'....] 我想改用day_type为“HOLIDAY”如果“数据”是holyd

    0热度

    2回答

    我正在处理一个优化问题,该问题涉及在对象集合上最小化昂贵的地图操作。 天真溶液会是这样的 rdd.map(expensive).min() 然而,映射函数将返回保证是值> = 0。因此,如果任何一个的结果是0,I可以采取作为答案和不需要计算其余的地图操作。 是否有使用Spark做到这一点的惯用方式?

    0热度

    2回答

    我想在amazon EMR实例上运行pyspark以从dynamodb读取数据,并想知道如何在代码中设置拆分和工人数量? 我遵循以下两个文档中的说明来提供当前连接到dynamoDB并读取数据的代码。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext

    2热度

    2回答

    有关Spark计算不一致的问题。这是否存在?例如,我运行完全一样的命令两​​次,例如: imp_sample.where(col("location").isNotNull()).count() 而且每次运行它的时候我收到稍有不同的结果(141830,然后142314)! 或者这样: imp_sample.where(col("location").isNull()).count() 并获

    2热度

    1回答

    我在scala Spark中训练了一个LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data) lda.save(path) 我检查了我保存的模型,它包含两个文件夹:元数据和数据。 然而,当我尝试这种模式加载到PySpark,我得到了一个错误说: model = LDAMod

    1热度

    1回答

    我无法找到答案。 如果我有RDD rdd = sc.parallelize([('a', [1,2,3]), ('b',[4,5,6])]) 其中每个值都是一个列表。 有没有方法可以拆分RDD,使得它成为 sc.parallelize([('a',1),('a',2),('a',3),('b',4),('b',5),('b'6)]) 现在在哪里每个值是列表的元素之一,搭配的关键。 我大致知

    0热度

    3回答

    我有一个RDD看起来像这样 [(3,6,7), (2,5,7), (4,3,7)] 我想获得的平均第一要素,以及第二个元素之和的总和第三要素。这是输出是什么样子: (3,14,21) 是否有可能做到这一点使用pyspark?

    0热度

    1回答

    我有以下结构的数据帧: root |-- index: long (nullable = true) |-- text: string (nullable = true) |-- topicDistribution: struct (nullable = true) | |-- type: long (nullable = true) | |-- values: array (nulla