2016-11-07 99 views
0

我已经安装了drupal 7和apache solr搜索模块,并使用Apache Solr(solr版本:4.10.4)进行了配置。内容已经从drupal索引到apache solr和搜索也工作正常。我需要配置Nutch(Apache Nutch版本:1.12)web爬虫到apache solr和drupal 7并从特定的URL中获取详细信息(for例如:http://www.w3schools.com),并需要在drupal中搜索内容。我的问题是如何配置所有三个solr nutch和drupal 7.可以有人提出解决方案吗?关于用apache Solr和apache Nutch配置Drupal 7

+1

Hi @Ramesh!我不认为你需要整合Nutch,因为它是一个爬虫,它不需要从你的Drupal 7内部获得信息,比如Apache Solr。唯一需要Nutch的东西是能够抓取您的网站,因此它需要访问,并可能是一个网站地图,但不是一个集成。对? –

+0

感谢您的宝贵答案。正如你所说的是正确的,我已经通过复制apache solr搜索模块中的schema.xml,solrconfig.xml和protwords.txt文件来配置Drupal和apache solr,它可以在索引和搜索时正常工作。内容被编入索引到核心。现在apache nutch有抓取的数据。这将被移动到apache solr核心。为此,我们需要像在nutch中那样更改apache solr schema.xml文件。如果我移动这个nutch,并且apache solr可以很好地将内容索引到solr Core。 – Ramesh

+0

我需要的是,爬网的内容(nutch内容)也被索引,并且网站的内容(drupal 7)也要在apache solr的相同核心中编入索引。为此,您可以采取哪些措施来帮助我? – Ramesh

回答

0

好的...这是我的丑陋解决方案,可能适合你在做什么。

您可以在节点(或页面)中使用php字段(带有Display Suite的自定义字段),该字段基本上用CURL读取整个页面,然后在那里打印内容。这个字段应该只在你的节点的显示器上显示,看不到任何人(除了Apache Solr)。

最后在Solr配置(老实说我不记得它是如何工作的),你可以选择要索引页面的哪个显示,或者要索引的字段,这将是你的整个页面。

如果所有这些工作,你不需要整合Nutch与Solr和Drupal。

祝你好运:)

PD:如果你有疑问就问。

+0

对不起,你错误地理解了。在我的网站中,我有指向html页面的链接(表单).html页面有一些带有超链接的文件。我需要那些文件的详细信息,如超链接等...因为我可以只使用nutch抓取数据,并可以与solr集成。我的问题是我需要索引我从nutch爬行的数据,我需要将可用于drupal的内容编入索引到apache solr。 – Ramesh

+0

,因为我们需要在drupal7中合并apache nutch和模块(apache solr search)中的schema.xml文件。你可以帮我在这 – Ramesh

+0

我希望我可以@Ramesh,但它超出了我的知识... –

0

我在这2分钱:看起来像你想从你的Drupal站点(你的节点)和外部内容托管在你的网站上的内容,但不是作为Drupal内容吗?如果是这种情况,那么你不需要在Nutch和Drupal之间进行任何整合,只需要在同一个Solr核心/集合中索引所有内容。当然你需要确保Solr模式是兼容的(Nutch有自己的元数据不同于Drupal节点)。另外,如果您使用独立的核心/集合进行索引,则可以使用参数shards将查询范围扩展到多个核心,并且仍然只能得到一个结果集,但采用这种方法时,需要保持并注意结果的相关性文档顺序),同时也要留意Drupal Solr模块用来显示结果的字段,所以最终你仍然需要在一定程度上使两个核心的模式兼容。

+0

感谢Jorge为您提供宝贵的答案。我需要将drupal内容和nutch抓取的内容编入索引中的同一个核心。你能否提供一些想法来将schema.xml表单drupal模块和nutch集成到solr schema.xml中 – Ramesh