2014-10-17 55 views
1

如何配置抓取工具nutch,以便只抓取英文页面?Nutch crawler:只接受英文页面

我在Nutch的-site.xml文件设定了这项政策,但它不工作:

<property> 
<name>http.accept.language</name> 
<value>en-us,en-gb,en;q=0.7,*;q=0.3</value> 
<description>Value of the "Accept-Language" request header field. 
This allows selecting non-English language as default one to retrieve. 
It is a useful setting for search engines build for certain national group. 
</description> 
</property> 
+0

我只想抓取英语和乌尔都语语言的网页,我可怎么办呢? – Shafiq 2015-03-05 04:15:51

回答

0

值设置:<value>en-us,en-gb,en;q=0.7,*;q=0.3</value>意味着它喜欢英语,但其他语言(*)仍然存在。对于只抓取英文页面,您应该设置如下值:

<value>en-us,en-gb,en</value> 

为了确保,还要更改nutch-default.xml中的值。

希望这有助于

-Le富国待办事项