2010-10-25 110 views
2

我用他们的wiki来安装nutch的例子。我能够轻松地抓取从dmoz中拉出的多个页面。但是,有没有可以配置来抓取它在页面上找到的外部链接,或者将这些外部链接写入下一个要抓取的文件?如何抓取找到的页面上的外部链接?

什么是最好的方式来跟踪页面上的链接索引该页面以及与nutch?如果我通过python执行bin/nutch,我可以找回它找到的所有外部链接,并创建一个新的爬行列表再次运行?你会怎么做?

回答

3

首先,确保参数'db.ignore.external.links'设置为false。此外,在“regex-urlfilter.txt”文件中,为您希望抓取的外部链接添加规则,或者添加+.作为最后一条规则。规则+.将使抓取工具遵循所有链接。如果您使用最后一个选项,请注意您冒险爬行所有Web!

+0

非常感谢。我将使用正则表达式filter.txt文件来获得最佳结果。 – Nathan 2010-10-27 17:38:53