2012-02-07 70 views

回答

0

如果您知道内部网的所有网址,请编写一个robots.txt(或与所有网址相同的网页并指向该网址)。

如果您不这样做,那么您将永远无法安全地抓取所有网址,因为您无法在抓取后对其进行验证。

在最后一种情况下,最好的机会是在最大深度进行爬网。

Regards