pyspark

    0热度

    2回答

    我在一个数据帧的工作有三列,可乐,COLB和COLC +---+-----+-----+-----+ |id |colA |colB |colC | +---+-----+-----+-----+ | 1 | 5 | 8 | 3 | | 2 | 9 | 7 | 4 | | 3 | 3 | 0 | 6 | | 4 | 1 | 6 | 7 | +---+-----+-----+-----

    0热度

    1回答

    在我的pyspark 2.0.1版本中,我需要检查特定名称[说客户端]是否出现在我的rdd列名称中,如果该字段客户端不是&,则生成错误消息目前在我的数据fame.Can请你提出一些语法像下面的语法 field='client' field not in df.schema.fields: print('field: ', field, "is not available)

    2热度

    1回答

    我从Cloudera quickstart docker容器上的Python Spark(v 1.6.0)开始。 我把一个静态 .txt文件(500 MB)放在hdfs下的/user/root/access_log.txt文件中。 在pyspark我试着将文件加载用TE以下行的Python代码: lines = sc.textFile("hdfs://quickstart.cloudera/use

    0热度

    1回答

    我正在使用我自己没有在AWS中设置的EMR。 我想了解Python解释器的火花是使用在我的.bashrc我有以下设置export PYSPARK_PYTHON=/mnt/anaconda/bin/python 当我运行我们的火花提交命令我用sys.executable打印到路径python解释器,这确实是它使用的解释器。 然而,当我专门去到该文件夹​​,运行Python的该实例与./python,

    0热度

    1回答

    我会尽我所能描述我的情况,然后我希望本网站上的其他用户可以告诉我我正在服用的课程是否合理,或者是否需要重新评估我的方法/选项。 背景: 我用pyspark,因为我最熟悉Python VS斯卡拉,java或R.我有一个从蜂巢表使用pyspark.sql查询表构成的火花数据帧。在这个数据框中,我有许多不同的'文件'。每个文件都由时间序列数据组成。我需要对每个“文件”的整个时间值对数据的子集执行滚动回归

    0热度

    1回答

    的区别我有一个表像这样来创建新的列: +-----+----+-------+-------+ |name | id | msg_a | msg_b | +-----+----+-------+-------+ | a| 3|[a,b,c]|[c] | | b| 5|[x,y,z]|[h,x,z]| | c| 7|[a,x,y]|[j,x,y]| +-----+----+-------

    0热度

    1回答

    我正在使用两个inicial列的数据帧,id和colA。 +---+-----+ |id |colA | +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | +---+-----+ 我需要合并该数据帧到另一列以上,COLB。我知道colB非常适合DataFrame的末尾,我只需要一些方法将它们连接在一起。 +-----+ |c

    0热度

    3回答

    我正在寻找一种方法来选择我的数据框在pyspark中的列。对于第一行,我知道我可以使用df.first(),但不确定列是否在没有列名。 我有5列,并希望通过其中每一个循环。 +----------------+---+---+---+---+---+---+ | _1| _2| _3| _4| _5| _6| _7| +----------------+---+---+---+---+-

    0热度

    1回答

    我想建立使用dataframes pyspark.ml库(不mllib为RDD)随机森林分类。 我是否必须使用文档中给出的管道? 我只是想建立一个简单的模型, rf = RandomForestClassifier(labelCol = labs, featuresCol = rawdata) 我碰到下面的错误 Traceback (most recent call last): F

    4热度

    2回答

    我有Apache Cassandra在Google Cloud中的4个虚拟机上工作。我认为它太昂贵了,并且想要将所有数据导出到BigQuery。卡桑德拉大约有2TB(60毫米排)。任何建议我怎么能做到这一点? 在此先感谢。