我在apache spark中有2个数据帧。使用另一个数据帧或RDD搜索数据帧
DF 1具有数字显示和描述......数据的模样
show_no |描述
a |这是mikey
b |这里是唐纳德
c |玛丽和乔治回家
d |玛丽和乔治来到镇上
和第二数据帧中的字符
字符
乔治
唐纳德
玛丽
米妮
我需要搜索展会说明一个找出哪个显示哪个字符的特征...
最终输出应该看起来像
character | showscharacterisin
george | c,d
donald | b
mary | c.d
minnie |没有显示
这些数据集设计简单,但它表达了我试图实现的搜索功能。我基本上需要使用另一个数据帧的值来搜索1个数据帧的文本。
这将很容易做在SQL Server内部的udf,我基本上会循环显示描述每次,并返回显示没有使用描述“包含”搜索。
我遇到的问题是我没有办法使用数据框来做到这一点。