我有两个数据集,每个数据集都有两个元素。 下面是一些例子。如何通过scala中的键加入两个数据集spark
数据1:(名称,动物)
('abc,def', 'monkey(1)')
('df,gh', 'zebra')
...
数据2:(姓名,水果)
('a,efg', 'apple')
('abc,def', 'banana(1)')
...
结果预期:(姓名,动物,水果)
('abc,def', 'monkey(1)', 'banana(1)')
...
我想要通过使用第一列“名称”来加入这两个数据集。我试图做几个小时,但我无法弄清楚。谁能帮我?
val sparkConf = new SparkConf().setAppName("abc").setMaster("local[2]")
val sc = new SparkContext(sparkConf)
val text1 = sc.textFile(args(0))
val text2 = sc.textFile(args(1))
val joined = text1.join(text2)
上面的代码不工作!
你在哪里拆分输入文本到'(键,值)'元组? – maasg
你会得到什么样的错误?它告诉你什么? – maasg
@maasg它说''无法解析符号连接。' – tobby