0
我正在使用Nutch抓取种子文件中指定的深度为100和topN 10,000的URL列表,以确保完全抓取。此外,我试图忽略在他们的路径中使用正则表达式重复字符串urlsil-urlfilter http://rubular.com/r/oSkwqGHrri有无论如何记录在Nutch crawl中被忽略的网址列表吗?
但是,我很想知道哪些网址在爬网过程中被忽略。无论如何,我可以记录Nutch在爬行时“忽略”的网址列表吗?
正是我想要的。谢谢! – sunskin 2013-03-25 15:38:19