2016-05-31 110 views
1

我在apache spark中有2个数据帧。使用另一个数据帧或RDD搜索数据帧

DF 1具有数字显示和描述......数据的模样

show_no |描述
a |这是mikey
b |这里是唐纳德
c |玛丽和乔治回家
d |玛丽和乔治来到镇上

和第二数据帧中的字符

字符
乔治
唐纳德
玛丽
米妮

我需要搜索展会说明一个找出哪个显示哪个字符的特征...

最终输出应该看起来像

character | showscharacterisin
george | c,d
donald | b
mary | c.d
minnie |没有显示

这些数据集设计简单,但它表达了我试图实现的搜索功能。我基本上需要使用另一个数据帧的值来搜索1个数据帧的文本。

这将很容易做在SQL Server内部的udf,我基本上会循环显示描述每次,并返回显示没有使用描述“包含”搜索。

我遇到的问题是我没有办法使用数据框来做到这一点。

回答

0

1)我想你应该进一步分解第一个数据集,以便show_no被映射到描述中的每个单词。 对于e.g第一行可以细分像

show_no | descrip 
a | this 
a | is 
a | mikey 

2)如果需要,您可以从这个过滤掉停用词。

3)之后,您可以加入“”字符“以获得最终期望的输出。

希望这会有所帮助。 Amit