2011-08-22 80 views
2

我想知道如何使nutch不仅抓取我指定的域,而且抓取我指定的域内的目录路径。我知道,你可以配置在正则表达式,urlfilter.txt此信息nutch爬行路径

回答

2

这应该只抓取你想要的域名/路径:

+.*www\.domain\.com/yourpath/.* 
#skip everything else 
-.*