2
我想知道如何使nutch不仅抓取我指定的域,而且抓取我指定的域内的目录路径。我知道,你可以配置在正则表达式,urlfilter.txt此信息nutch爬行路径
我想知道如何使nutch不仅抓取我指定的域,而且抓取我指定的域内的目录路径。我知道,你可以配置在正则表达式,urlfilter.txt此信息nutch爬行路径
这应该只抓取你想要的域名/路径:
+.*www\.domain\.com/yourpath/.*
#skip everything else
-.*