2012-03-12 99 views
3

我想知道是否可以使用不同的配置文件集来运行相同的NUTCH实例?我无法看到参数列表中的任何选项允许这样的事情。有没有办法用不同的配置文件运行NUTCH?

我想只在一台计算机上运行NUTCH,我不想复制nutch实例。

有谁知道这样做的简单方法,还是我需要修改bin/nutch脚本来完成它。

谢谢。

回答

3

This nutch FAQ应该是有用的。答案描述了如何创建自定义conf目录并让nutch通过$NUTCH_CONF_DIR环境变量指向它。

+0

我已经阅读之前,我相信这是使用子目录只要。我正在寻找一种方式来指定当我调用bin/nutch时使用哪些配置。除非我错过了某些东西。 – breakdown1986 2012-03-13 13:40:22

+0

@ breakdown1986我刚试过。它不仅适用于子文件夹,您可以将配置文件放在任何地方,并使用NUTCH_CONF_DIR让nutch知道它所在的位置。我想这就是你要找的,让我知道你是否需要帮助! – javanna 2012-03-13 13:53:20

+0

嗨javanna,我想用两个不同的设置使用相同的nutch实例来抓取。例如,我需要爬取两个不同的网站,并使用solr分别索引它们。我正在尝试编写一个shell脚本来自动执行此操作。因此我需要2套配置文件,所以在我的shell脚本中,我可以告诉nutch使用这两种不同的设置。那有意义吗 ?? – breakdown1986 2012-03-13 14:00:26

0

您可以使用Unix符号链接并在脚本中更改此链接。就像,如果你有regex-urlfilter-conf_A.txt和regex-urlfilter-conf_B.txt。在脚本中,开始Nutch的面前:

为CONF答:

ln -sf $NUTCH_FOLDER/conf/regex-urlfilter-conf_A.txt $NUTCH_FOLDER/conf/regex-urlfilter.txt 

为CONF B:

ln -sf $NUTCH_FOLDER/conf/regex-urlfilter-conf_B.txt $NUTCH_FOLDER/conf/regex-urlfilter.txt 
相关问题