2009-11-30 110 views

回答

3

有一个开放的档案倡议协议的元数据收集,它使用XML的HTML。您可以在:​​

此外,深层网络(也称Deepnet,不可见网络,暗网或隐藏网络)是指万维网内容不是表面网络的一部分,它被索引为标准的搜索引擎。

商业搜索引擎已经开始探索替代方法来抓取深度网络。 Sitemaps协议(最初由Google开发)和mod oai是允许搜索引擎和其他感兴趣的各方发现特定Web服务器上的深层Web资源的机制。这两种机制都允许Web服务器通告可访问的URL,从而允许自动发现不直接链接到表面Web的资源。 Google的深层Web显示系统会预先计算每个HTML表单的提交内容,并将生成的HTML页面添加到Google搜索引擎索引中。浮出水面的结果每秒对深层Web内容进行一千次查询。在这个系统中,提交的预先计算是使用三种算法进行:

(1),用于接受关键字的文本搜索输入,用来选择输入值,

其中只接受特定的值(2)识别输入类型(例如,日期)和

(3)选择生成适合于包含到网络搜索索引中的URL的少量输入组合。

+0

深网和黑网是*不是一回事。 – ray 2016-05-10 04:27:40

1

如果Google无法索引这些页面中的任何一个,那么您认为开源库可以做到这一点? :)

这就是说,您的文章中有一些关于抓取深度网络的链接,这可能是一个开始调查的好地方。这里有一些其他的:

+0

Google的重点不在于Deep Web--我不质疑潜在能力,而是为了达到目的。对于弹药和其他各种不适合谷歌进行索引的主题,Deep Web是非常广泛的非法信息资源,无论其被归类为“安全搜索”的程度如何。对于“开源”,我的意思是相当黑客的存储库计划,可通过某种API进行查询。 – luvieere 2009-11-30 22:11:48

+0

军火,非法信息......你究竟想在这里做什么? – 2010-02-20 19:11:16

相关问题