2015-09-30 20 views
1

我在同名的列上加入了两个数据帧。在SparkR 1.5.0中,如何在公共列上加入后明确指定列?

oe = join(orders, emp, orders$EmployeeID == emp$EmployeeID) 

所得数据帧有两列具有相同名称的EmployeeID

现在一组通过或者甚至在打印列名

peremp = groupBy(oe, 'EmployeeID', sales = n(oe$OrderID)) 
oe$EmployeeID 

失败,并在invokeJava错误

错误(isStatic = FALSE,objId $ id,methodName,...):
或g.apache.spark.sql.AnalysisException:引用'EmployeeID'是 含糊不清,可能是:EmployeeID#36,EmployeeID#69。

回答

2

您可以通过父数据框访问列。首先,让我们创建一些示例数据:

df1 <- createDataFrame(sqlContext, data.frame(id=c(1, 2, 3), v=c("a", "b", "c"))) 
df2 <- createDataFrame(sqlContext, data.frame(id=c(2, 3), v=c("g", "z"))) 
df <- join(df1, df2, df1$id == df2$id) 
head(df) 
## id v id v 
## 1 3 c 3 z 
## 2 2 b 2 g 

并获得v柱:

select(df, "v") 
## 15/09/30 17:47:13 ERROR RBackendHandler: select on 131 failed 
## Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) : 
## org.apache.spark.sql.AnalysisException: Reference 'v' is ambiguous, could be 
## .... 

select(df, df1$v) %>% head 
## v 
## 1 c 
## 2 b 
1

一个简单的解决方法似乎是事先用withColumnRenamed函数重命名其中一个表中的列。我会尝试的另一种方法是从列函数中找出位置,然后删除列,但我没有看到明显有效的方法。

+0

没有必要的变通方法。您可以简单地在父数据框中使用'$'函数访问列。 – zero323