我有一个数据集,其中有一个名为WebsiteData
的表中存储了名为Website
(类型VARCHAR
)的列中的数千个网址。有许多对URL(存储在单独的行中)是相同的,除了一个以www
开始,例如, www.google.com
,另一个不是,例如google.com
。我将如何设计一个标识这些伪重复项的SQL查询并删除不以www
开头的版本?使用SQL查询去除相似但不相同的URL
0
A
回答
1
我衍生2代表一个与具有www.
和一个没有网址。通过添加www将它们加入在一起。到没有的网站。
-- SELECT first to review the records.
select *
from
(select * from website where url not like 'www.%') wA
join
(select * from website where url like 'www.%') wB
on 'www.' + wa.url = wb.url
delete wA
from
(select * from website where url not like 'www.%') wA
join
(select * from website where url like 'www.%') wB
on 'www.' + wa.url = wb.url
0
使用SUBSTRING首先获取网站部分。并与任何重复条目匹配并删除它。
DELETE tableW
FROM tableW W
JOIN
(
select W1.website
FROM tableW W1
inner join tableW W2
on W1.website = SUBSTRING(W2.website,CHARINDEX('.',W2.website, 0)+1, LEN(w2.website))
) T
on T.website = W.website
相关问题
- 1. 用于排除具有相似值但不相同的行的SQL查询
- 2. 使用SQL根据相似的ID查询不同的对
- 3. SQL查询计数除以相同查询的不同计数
- 4. 的Sql相同的查询,但示出了不同的结果
- 5. sql查询总和相同的id,但不同的值?
- 6. 查询相同ACCOUNT_ID,相同的状态,但不是CURRENT_USER SQL钢轨
- 7. 相同查询但执行计划不同,服务器相同
- 8. Django Trigram相似查询速度不及原始查询的结果相同
- 9. 相同的Neo4j查询不使用JDBC
- 10. 使用不同但相似但没有分支的对象
- 11. SQL Server查询运行SQLServer的内部罚款,但相同的查询不JDBI
- 12. 相同的查询使用相同的数据,不同的性能
- 13. SQL服务器T SQL 2014(重复使用相同的查询)
- 14. 相同的擦除,但不是相同的类型。
- 15. 相似但不相同的字符串序列
- 16. 结合2个不同但相当相似的表
- 17. 代码相似但不完全相同的代码模板?
- 18. 多个查询相同的表,但在不同的列的mysql
- 19. Access查询减去2不同的列从不同的行中相同的表相同的ID
- 20. 查询近似相等
- 21. Linq使用包含编译查询(与SQL IN语句相似)
- 22. SQL查询更新相同的表
- 23. SQL查询这给我相同的而
- 24. SQL查询多个表的相同值
- 25. 不同的结果为相同的查询,但功能内
- 26. 检查具有相似键但不同值的两个词典
- 27. 相同的查询,不同的表现
- 28. 使用相关联接的SQL查询
- 29. 具有相同问题但不同答案的重复查询
- 30. 2非常相似的SQL查询有完全不同的性能
你应该知道这些不一定是重复的URL – Lamak 2014-09-25 15:40:31
你能否详细说明一下? – zgall1 2014-09-25 15:51:01
好吧,只是因为*通常*'www.someurl.com'指向'someurl.com',这并不意味着在所有的 – Lamak 2014-09-25 15:53:06