Q

使用nutch索引所有内部网

2012-02-07 70 views 0 likes

0

我使用Nutch，我想索引一个内部网，但是如何确保内部网上的所有内容都将被索引？使用nutch索引所有内部网

谢谢。

2012-02-07 bobosh

A

回答

0

如果您知道内部网的所有网址，请编写一个robots.txt（或与所有网址相同的网页并指向该网址）。

如果您不这样做，那么您将永远无法安全地抓取所有网址，因为您无法在抓取后对其进行验证。

在最后一种情况下，最好的机会是在最大深度进行爬网。

Regards

2012-02-19 03:57:04

相关问题