2009-06-02 39 views

回答

1

nutch有内联网抓取可用。你可以阅读细节here

4

从Nutch的维基:

我如何索引我的本地文件系统?

http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6

1)爬网urlfilter.txt需要改变,以允许文件:网址,而不是下面的HTTP:的,否则要么无法索引任何东西,或将您的磁盘跳下到网站。 更改此行:

-^(file|ftp|mailto|https): 

    to this: 

    -^(http|ftp|mailto|https): 

2)抓取-urlfilter.txt可以在底部有规则拒绝一些网址。如果它有这个片段,它可能确定:

# accept anything else +.* 

3)我改变了我的nutch.xml包括以下内容:

<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/> 
+0

正则表达式,urlfilter.txt需要改变 – gmlvsv 2013-05-31 07:25:04