是否有任何可用于搜索Deep Web的开源库？

是否有任何开源库可用于搜索Deep Web？是否有任何可用于搜索Deep Web的开源库？

2009-11-30 luvieere

您是否对数据或api更感兴趣来收集数据？ – Steve 2010-02-20 18:26:47

我对API感兴趣。 – luvieere 2010-02-20 19:57:38

非常有趣的问题（+1），但恐怕你只需要自己写（我希望你可以证明我错了，但）。 – Phil 2009-12-03 20:47:42

有一个开放的档案倡议协议的元数据收集，它使用XML的HTML。您可以在：

此外，深层网络（也称Deepnet，不可见网络，暗网或隐藏网络）是指万维网内容不是表面网络的一部分，它被索引为标准的搜索引擎。

商业搜索引擎已经开始探索替代方法来抓取深度网络。 Sitemaps协议（最初由Google开发）和mod oai是允许搜索引擎和其他感兴趣的各方发现特定Web服务器上的深层Web资源的机制。这两种机制都允许Web服务器通告可访问的URL，从而允许自动发现不直接链接到表面Web的资源。 Google的深层Web显示系统会预先计算每个HTML表单的提交内容，并将生成的HTML页面添加到Google搜索引擎索引中。浮出水面的结果每秒对深层Web内容进行一千次查询。在这个系统中，提交的预先计算是使用三种算法进行：

（1），用于接受关键字的文本搜索输入，用来选择输入值，

其中只接受特定的值（2）识别输入类型（例如，日期）和

（3）选择生成适合于包含到网络搜索索引中的URL的少量输入组合。

来源

2010-02-17 11:59:11

深网和黑网是*不是一回事。 – ray 2016-05-10 04:27:40

如果Google无法索引这些页面中的任何一个，那么您认为开源库可以做到这一点？ :)

这就是说，您的文章中有一些关于抓取深度网络的链接，这可能是一个开始调查的好地方。这里有一些其他的：

Deep Web Research有很多有用的参考文献。
deepwebtech.com声称拥有一个深度的网络搜索引擎，尽管目前它已经关闭。

来源

2009-11-30 22:05:13

Google的重点不在于Deep Web--我不质疑潜在能力，而是为了达到目的。对于弹药和其他各种不适合谷歌进行索引的主题，Deep Web是非常广泛的非法信息资源，无论其被归类为“安全搜索”的程度如何。对于“开源”，我的意思是相当黑客的存储库计划，可通过某种API进行查询。 – luvieere 2009-11-30 22:11:48

军火，非法信息......你究竟想在这里做什么？ – 2010-02-20 19:11:16

是否有任何可用于搜索Deep Web的开源库？

回答

相关问题