databricks

    2热度

    1回答

    我正在使用由数据砖提供的spark-redshift库从Spark中的红移表中读取数据。链接:https://github.com/databricks/spark-redshift。 注意:在我的情况下,Redshift集群和EMR集群的AWS账户是不同的。 我能够在Spark LOCAL模式下使用spark-redshift连接到红移。但是,相同的代码在EMR上失败,出现以下异常:java.s

    0热度

    1回答

    我们有kakfa hdfs连接器以默认avro格式写入hdfs。样品O/P: 的OBJ^A^B^Vavro.schema “[” 空”, “字符串”]^@ $ͳø{< 9D>¾Ã^ X:< 8D>紫外^ K^H5^F^F^B < 8a>^B {“severity”:“notice”,“message”:“Test message”,“facility”:“kern”,“syslog-tag”:“

    2热度

    1回答

    我试图在我的系统中以独立模式运行spark。目前我的系统规格是8核心和32 Gb内存。立足this article我计算出火花的结构如下所示: spark.driver.memory 2g spark.executor.cores 3 spark.executor.instances 2 spark.executor.memory 20g maximizeResourceAllocatio

    0热度

    1回答

    我正在使用数据块进行实木复合地板转换。该文件是^ A分隔的。我在创建DF时明确提到了这一点,如下所示。但是,当我在数据中得到一个^ M字符时,它在那里终止并给出格式不正确的行异常。有人可以请建议我如何处理这个? 样品部分从记录: 分装^ Asome文本来这里;^M^M奖励:somemore文本;^A0.00 val dataframe = sparkSession.sqlContext.read

    1热度

    1回答

    有下面的代码的一部分,我的预测;我想知道如何评估我的预测? 如果,我想知道我的特征的重要性是有使用featureImportances的RandomForestRegressionModel一招?我应该直接切换到RandomForestRegressionModel而不是使用PipelineModel? ,我读了使用管道可以提供更好的结果,这就是为什么我使用它。 我试过使用RegressionEv

    0热度

    1回答

    我有一个包含ID的列的文件。通常,ID只出现一次,但偶尔会与多个记录关联。我想计算一个给定的ID出现的次数,然后分成两个单独的dfs,这样我就可以在两者上运行不同的操作。一个df应该是ID只出现一次的地方,一个应该是ID多次出现的地方。 我是能够成功地算一笔ID出现了通过对ID分组,并加入数返回到原来的DF,像这样的实例数量: newdf = df.join(df.groupBy('ID').co

    3热度

    1回答

    我刚开始使用databricks/pyspark。我使用python/spark 2.1。我已将数据上传至表格。这个表格是一个充满字符串的单个列。我希望将映射函数应用于列中的每个元素。我的表加载到数据帧: df = spark.table("mynewtable") 我能看到的唯一途径是别人说的话是将其转换为RDD应用映射函数,然后返回到数据框来显示数据。但是,这牵扯出工作中止阶段失败: df

    1热度

    1回答

    我试图从火花阶加载CSV文件CSV文件。我看到,我们可以使用下面的两种不同的语法做: sqlContext.read.format("csv").options(option).load(path) sqlContext.read.options(option).csv(path) 是什么这两个并给出了更好的性能区别? 感谢

    1热度

    1回答

    我想避免将整个流写入文件,然后将其加载到数据框。什么是正确的方式?

    0热度

    2回答

    我有以下情形: 我有仅含有1列2个dataframes比方说 DF1=(1,2,3,4,5) DF2=(3,6,7,8,9,10) 基本上那些值是键并且如果我创建DF1的镶木文件DF1中的键不在DF2中(在当前的例子中它应该返回false)。我目前的方式达到我的要求是: val df1count= DF1.count val df2count=DF2.count val diffDF=D