2010-01-12 65 views
0

当我搜索某些东西时,我会得到具有相同文本和标题的内容。 当然,总是有一个原创的(其他人拷贝/水蛭)我正在建立一个搜索引擎。如何从搜索结果中删除重复项?

如果你有搜索和爬行的专业知识...你如何建议我删除这些重复? (在一个非常可行和高效的mannter)

+0

听起来像一个superuser.com问题给我。 – RedFilter 2010-01-12 22:05:08

+2

一个广泛的话题;我会先用一个搜索引擎开始,例如谷歌和寻找:“搜索引擎”重复网站:edu/http://www.google.com/search?hl=en&q=%22search+engine%22+duplicates+site%3Aedu – miku 2010-01-12 22:07:06

回答

1

听起来像一个编程问题给我。

如果您对这些网页的被盗和原始组件有什么清楚的了解,并且这些差异足够普遍以至于您可以编写一个过滤器来将它们分开,那么请执行此操作,对“被盗”内容进行哈希,那么你应该能够比较散列以确定两个页面是否相同。

我想网页盗贼可能会去一些进一步的代码混淆混乱你,包括改变空白,所以你可能想在哈希之前规范化HTML,例如删除任何多余的空白,使所有的属性使用"报价等