我有一个来自客户端的数据是一个很好的重复信息混乱。我将运行一个清理查询来抓取转储的数据,进行一些清理,最终将其放入新表中。最有效的方法来避免重复数据清理
下面是一个脚本:
INSERT INTO Spend (...)
SELECT ...
FROM Facilities F
JOIN Dump d
ON d.facname = f.name
AND f.city = d.city
到目前为止好。出现新的数据转储时会出现问题。我只想得到最新的东西。我无法想出一种看起来很有效的方法。快速简便的WHERE NOT
条款将不起作用(我不认为...),因为没有任何独特的数据列。条目的唯一性实际上取决于大多数(如果不是全部)列的组合。考虑到去年一家公司的转储数量是20万行,所以对每个转储进行循环播放似乎是一个糟糕的想法。一旦我们在这里得到了一些用户,并且数据追溯到一年多以前,似乎清理工作将会过于密集。
或者我可能只是一个n00b,我正在从一座小山上爬山。感谢您的任何意见或pointers-
编辑#1
附加样本记录的图像设置
第一个关口是企业的ID从企业的外键表。其余的是购买记录。此表用于搜索。然后,在清理并转储到新的可搜索表格后,唯一的唯一列是每行的自动递增ID。
你能给样品记录吗? – 2013-03-22 00:24:35
肯定的事情。见上面的编辑。 – 2013-03-22 12:42:09
您正在描述列。似乎有10个。您将第一列表征为特征,然后调用剩余的9个“购买记录”。你是一个喜欢捷径的人,呃? – Tim 2013-03-22 12:51:57