我有两个表:排除和kaggleresults。我试图寻找存在于excluded
记录,但在kaggleresults
如何获取表1中存在但不是表2中的记录?
计数不存在:
scala> spark.sql("select * from excluded").count()
res136: Long = 4652
scala> spark.sql("select * from kaggleresults").count()
res137: Long = 4635
不同的是17
scala> res136-res137
res139: Long = 17
我试图让那些17条记录。我在下面写了查询,但它返回38
。
scala> spark.sql("select * from excluded left join kaggleresults on kaggleresults.subject_id = excluded.subject_id where kaggleresults.subject_id is null").count()
res135: Long = 38
问题
查询什么,我需要写让那些17点的记录?
请你能告诉我这些表之间的共同ID –
安东尼排除查询看起来是正确的。你可以通过像你所做的那样通过左连接,EXISTS或NOT IN来完成,但是所有的结果都应该产生相同的结果,你可能会得到38,因为38条记录不存在。你说的是17,但是可能发生的另一个变化是在kaggresults中的记录不是排除在外的,你可能有21条记录,这就意味着净差值为17 – Matt
@Anthony请检查下面的查询我认为它将为你工作 –