Nutch的不爬整个网站

我瓶坯命令抓取网站：

问题是，Nutch的只抓取第一个网址（在seeds.txt中指定的网址）。数据只是来自第一个URL /页面的HTML。

由generate命令累积的所有其他URL实际上未被抓取。

我无法让nutch抓取其他生成的网址......我也无法让nutch抓取整个网站。 我需要使用哪些选项来抓取整个网站？

有没有人有任何见解或建议？

非常感谢你的帮助

2016-03-01 tt2244

在这种Nutch的抓取只有一个指定的URL，请Nutch的过滤器（CONF /正则表达式，urlfilter.txt）的情况。要抓取种子中的所有URL，regex-urlfilter.txt的内容应如下所示。

# accept all URLs 
+.

希望这有助于

李全安待办事项

2016-03-10 19:07:14

回答