我正在建立一个搜索引擎。如何从搜索结果中删除重复项？

当我搜索某些东西时，我会得到具有相同文本和标题的内容。当然，总是有一个原创的（其他人拷贝/水蛭）我正在建立一个搜索引擎。如何从搜索结果中删除重复项？

如果你有搜索和爬行的专业知识...你如何建议我删除这些重复？（在一个非常可行和高效的mannter）

2010-01-12 TIMEX

听起来像一个superuser.com问题给我。 – RedFilter 2010-01-12 22:05:08

一个广泛的话题;我会先用一个搜索引擎开始，例如谷歌和寻找：“搜索引擎”重复网站：edu/http://www.google.com/search?hl=en&q=%22search+engine%22+duplicates+site%3Aedu – miku 2010-01-12 22:07:06

听起来像一个编程问题给我。

如果您对这些网页的被盗和原始组件有什么清楚的了解，并且这些差异足够普遍以至于您可以编写一个过滤器来将它们分开，那么请执行此操作，对“被盗”内容进行哈希，那么你应该能够比较散列以确定两个页面是否相同。

我想网页盗贼可能会去一些进一步的代码混淆混乱你，包括改变空白，所以你可能想在哈希之前规范化HTML，例如删除任何多余的空白，使所有的属性使用"报价等

2010-01-12 22:10:32

2010-01-12 22:21:24 Tobu

回答