2016-03-01 47 views
1

我使用Nutch的2.3.1Nutch的不爬整个网站

我瓶坯命令抓取网站:

  • ./nutch注入../urls/seed.txt
  • ./nutch生成-topN 2500
  • ./nutch取-all

问题是,Nutch的只抓取第一个网址(在seeds.txt中指定的网址)。数据只是来自第一个URL /页面的HTML。

由generate命令累积的所有其他URL实际上未被抓取。

我无法让nutch抓取其他生成的网址......我也无法让nutch抓取整个网站。 我需要使用哪些选项来抓取整个网站?

有没有人有任何见解或建议?

非常感谢你的帮助

回答

1

在这种Nutch的抓取只有一个指定的URL,请Nutch的过滤器(CONF /正则表达式,urlfilter.txt)的情况。要抓取种子中的所有URL,regex-urlfilter.txt的内容应如下所示。

# accept all URLs 
+. 

查看详情这里:http://wiki.apache.org/nutch/NutchTutorial

希望这有助于

李全安待办事项