pyspark

0热度

1回答

我有一个LDA的一个pyspark数据帧像这样的结果： topicIndices.filter("topic > 3").show(10, truncate=True) +-----+--------------------+--------------------+ |topic| termIndices| termWeights| +-----+-----------------

1热度

1回答

ipython不被识别为内部或外部命令（pyspark）

我已经安装了spark版本：spark-2.2.0-bin-hadoop2.7。我使用Windows 10 OS 我的Java版本1.8.0_144 我已经把我的环境变量： SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7 HADOOP_HOME D:\Hadoop (where I put bin\winutils.exe) PYSPARK_DRIVER_

1热度

2回答

根据另一列的值更改pyspark列

我有一个名为df的pyspark数据框。 ONE LINE EXAMPLE: df.take(1) [Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")] 我有假期一天的清单： holydays=[u'2016-12-25',u'2016-12-08'....] 我想改用day_type为“HOLIDAY”如果“数据”是holyd

0热度

2回答

火花短路，排序和懒惰地图

我正在处理一个优化问题，该问题涉及在对象集合上最小化昂贵的地图操作。天真溶液会是这样的 rdd.map(expensive).min() 然而，映射函数将返回保证是值> = 0。因此，如果任何一个的结果是0，I可以采取作为答案和不需要计算其余的地图操作。是否有使用Spark做到这一点的惯用方式？

0热度

2回答

如何在pyspark中设置拆分和减速器的数量

我想在amazon EMR实例上运行pyspark以从dynamodb读取数据，并想知道如何在代码中设置拆分和工人数量？我遵循以下两个文档中的说明来提供当前连接到dynamoDB并读取数据的代码。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext

2热度

2回答

运行计数命令时出现点火不一致

有关Spark计算不一致的问题。这是否存在？例如，我运行完全一样的命令两次，例如： imp_sample.where(col("location").isNotNull()).count() 而且每次运行它的时候我收到稍有不同的结果（141830，然后142314）！或者这样： imp_sample.where(col("location").isNull()).count() 并获

2热度

1回答

Spark：将Scala ML模型加载到PySpark

我在scala Spark中训练了一个LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data) lda.save(path) 我检查了我保存的模型，它包含两个文件夹：元数据和数据。然而，当我尝试这种模式加载到PySpark，我得到了一个错误说： model = LDAMod

1热度

1回答

pyspark：按值将单个RDD分割为多个RDD

我无法找到答案。如果我有RDD rdd = sc.parallelize([('a', [1,2,3]), ('b',[4,5,6])]) 其中每个值都是一个列表。有没有方法可以拆分RDD，使得它成为 sc.parallelize([('a',1),('a',2),('a',3),('b',4),('b',5),('b'6)]) 现在在哪里每个值是列表的元素之一，搭配的关键。我大致知

0热度

3回答

pyspark RDD - 在一些指标加元组的列表

我有一个RDD看起来像这样 [(3,6,7), (2,5,7), (4,3,7)] 我想获得的平均第一要素，以及第二个元素之和的总和第三要素。这是输出是什么样子： (3,14,21) 是否有可能做到这一点使用pyspark？

0热度

1回答

PySpark：数据帧 - 转换结构数组