1
我使用Nutch的2.3.1Nutch的不爬整个网站
我瓶坯命令抓取网站:
- ./nutch注入../urls/seed.txt
- ./nutch生成-topN 2500
- ./nutch取-all
问题是,Nutch的只抓取第一个网址(在seeds.txt中指定的网址)。数据只是来自第一个URL /页面的HTML。
由generate命令累积的所有其他URL实际上未被抓取。
我无法让nutch抓取其他生成的网址......我也无法让nutch抓取整个网站。 我需要使用哪些选项来抓取整个网站?
有没有人有任何见解或建议?
非常感谢你的帮助