我正在根据其哈希代码对一些URL进行索引,并使用该哈希来检索它们。我在这件事上有两个问题:为两个不同的字符串URL获取唯一的哈希,它们实际上是相同的
- 你认为这是一个好方法吗?我的意思是有时候两个不同的URL可以产生相同的散列,但我似乎没有其他选择,因为URL可能很长,我需要为它们生成一个文件名。
- [更重要的]有时候两个不同的网址实际上是在同一个网页上(例如http://www.stackoverflow.com和http://stackoverflow.com,有时还有%字符的网址),但我需要为这些网址生成相同的哈希码。你有什么建议?
谢谢。
你基本上不知道两个URL(如上面提到的两个URL)是否指向相同的位置,至少不是没有访问这两个URL或者假设如何配置该站点。 – 2011-04-01 16:25:08