databricks

2热度

1回答

我正在使用由数据砖提供的spark-redshift库从Spark中的红移表中读取数据。链接：https://github.com/databricks/spark-redshift。注意：在我的情况下，Redshift集群和EMR集群的AWS账户是不同的。我能够在Spark LOCAL模式下使用spark-redshift连接到红移。但是，相同的代码在EMR上失败，出现以下异常：java.s

0热度

1回答

databricks avro模式无法转换为Spark SQL结构类型

我们有kakfa hdfs连接器以默认avro格式写入hdfs。样品O/P：的OBJ^A^B^Vavro.schema “[” 空”， “字符串”]^@ $Í³ø{< 9D>¾Ã^ X：< 8D>紫外^ K^H5^F^F^B < 8a>^B {“severity”：“notice”，“message”：“Test message”，“facility”：“kern”，“syslog-tag”：“

2热度

1回答

独立模式下的Spark并行性

我试图在我的系统中以独立模式运行spark。目前我的系统规格是8核心和32 Gb内存。立足this article我计算出火花的结构如下所示： spark.driver.memory 2g spark.executor.cores 3 spark.executor.instances 2 spark.executor.memory 20g maximizeResourceAllocatio

0热度

1回答

Databricks实木复合地板转换

我正在使用数据块进行实木复合地板转换。该文件是^ A分隔的。我在创建DF时明确提到了这一点，如下所示。但是，当我在数据中得到一个^ M字符时，它在那里终止并给出格式不正确的行异常。有人可以请建议我如何处理这个？样品部分从记录：分装^ Asome文本来这里;^M^M奖励：somemore文本;^A0.00 val dataframe = sparkSession.sqlContext.read

1热度

1回答

评估使用管道型号

有下面的代码的一部分，我的预测;我想知道如何评估我的预测？如果，我想知道我的特征的重要性是有使用featureImportances的RandomForestRegressionModel一招？我应该直接切换到RandomForestRegressionModel而不是使用PipelineModel？，我读了使用管道可以提供更好的结果，这就是为什么我使用它。我试过使用RegressionEv

0热度

1回答

在PySpark中出现值的次数进行过滤

我有一个包含ID的列的文件。通常，ID只出现一次，但偶尔会与多个记录关联。我想计算一个给定的ID出现的次数，然后分成两个单独的dfs，这样我就可以在两者上运行不同的操作。一个df应该是ID只出现一次的地方，一个应该是ID多次出现的地方。我是能够成功地算一笔ID出现了通过对ID分组，并加入数返回到原来的DF，像这样的实例数量： newdf = df.join(df.groupBy('ID').co

3热度

1回答

在DataFrame上应用映射功能

我刚开始使用databricks/pyspark。我使用python/spark 2.1。我已将数据上传至表格。这个表格是一个充满字符串的单个列。我希望将映射函数应用于列中的每个元素。我的表加载到数据帧： df = spark.table("mynewtable") 我能看到的唯一途径是别人说的话是将其转换为RDD应用映射函数，然后返回到数据框来显示数据。但是，这牵扯出工作中止阶段失败： df

1热度

1回答

有效的方式来加载火花/斯卡拉

我试图从火花阶加载CSV文件CSV文件。我看到，我们可以使用下面的两种不同的语法做： sqlContext.read.format("csv").options(option).load(path) sqlContext.read.options(option).csv(path) 是什么这两个并给出了更好的性能区别？感谢

1热度

1回答

Spark从InputStream创建一个数据帧？

我想避免将整个流写入文件，然后将其加载到数据框。什么是正确的方式？

0热度

2回答

平等帧

我有以下情形：我有仅含有1列2个dataframes比方说 DF1=(1,2,3,4,5) DF2=(3,6,7,8,9,10) 基本上那些值是键并且如果我创建DF1的镶木文件DF1中的键不在DF2中（在当前的例子中它应该返回false）。我目前的方式达到我的要求是： val df1count= DF1.count val df2count=DF2.count val diffDF=D