我已经安装了drupal 7和apache solr搜索模块,并使用Apache Solr(solr版本:4.10.4)进行了配置。内容已经从drupal索引到apache solr和搜索也工作正常。我需要配置Nutch(Apache Nutch版本:1.12)web爬虫到apache solr和drupal 7并从特定的URL中获取详细信息(for例如:http://www.w3schools.com),并需要在drupal中搜索内容。我的问题是如何配置所有三个solr nutch和drupal 7.可以有人提出解决方案吗?关于用apache Solr和apache Nutch配置Drupal 7
回答
好的...这是我的丑陋解决方案,可能适合你在做什么。
您可以在节点(或页面)中使用php字段(带有Display Suite的自定义字段),该字段基本上用CURL读取整个页面,然后在那里打印内容。这个字段应该只在你的节点的显示器上显示,看不到任何人(除了Apache Solr)。
最后在Solr配置(老实说我不记得它是如何工作的),你可以选择要索引页面的哪个显示,或者要索引的字段,这将是你的整个页面。
如果所有这些工作,你不需要整合Nutch与Solr和Drupal。
祝你好运:)
PD:如果你有疑问就问。
我在这2分钱:看起来像你想从你的Drupal站点(你的节点)和外部内容托管在你的网站上的内容,但不是作为Drupal内容吗?如果是这种情况,那么你不需要在Nutch和Drupal之间进行任何整合,只需要在同一个Solr核心/集合中索引所有内容。当然你需要确保Solr模式是兼容的(Nutch有自己的元数据不同于Drupal节点)。另外,如果您使用独立的核心/集合进行索引,则可以使用参数shards
将查询范围扩展到多个核心,并且仍然只能得到一个结果集,但采用这种方法时,需要保持并注意结果的相关性文档顺序),同时也要留意Drupal Solr模块用来显示结果的字段,所以最终你仍然需要在一定程度上使两个核心的模式兼容。
感谢Jorge为您提供宝贵的答案。我需要将drupal内容和nutch抓取的内容编入索引中的同一个核心。你能否提供一些想法来将schema.xml表单drupal模块和nutch集成到solr schema.xml中 – Ramesh
- 1. Apache Nutch和Solr集成
- 2. Drupal 7 Apache Solr搜索Facets配置覆盖缺失字段
- 3. Apache Solr实现查看Drupal 7的
- 4. Apache solr搜索结果查看Drupal 7
- 5. Drupal 7 Apache solr搜索模块
- 6. Drupal + Nutch + Solr
- 7. Apache solr配置与tomcat 6.0
- 8. 将Apache Tika应用于Solr而不是Nutch有什么好处
- 9. 在Windows 7上配置Apache
- 10. 配置Apache Ant和艾维在Windows 7
- 11. 如何使用apache Solr配置Apache Tika 1.4.1
- 12. 用于PHP和Web2Py的Apache配置
- 13. 使用apache solr设置Conceptnet
- 14. 关于uri的Apache配置问题
- 15. 配置symfony和apache
- 16. 配置Django和Apache
- 17. Windows上的Apache Nutch
- 18. Apache Solr&schema.xml
- 19. Nutch v Solr v Nutch + Solr
- 20. 我该如何使用Apache Spark和Apache Nutch
- 21. 如何在ubuntu 10.10中配置Nutch和solr?
- 22. Windows 7 | Apache反向代理配置
- 23. Apache Solr提交
- 24. 如何在apache tomcat 7中集成apache solr?
- 25. 用tika为apache solr解析数据
- 26. 用于多个solr内核的nutch配置
- 27. Apache mod_proxy和反向配置。
- 28. Apache配置为PHP和Django
- 29. 配置Django,Apache和Nginx
- 30. 清漆和配置Apache
Hi @Ramesh!我不认为你需要整合Nutch,因为它是一个爬虫,它不需要从你的Drupal 7内部获得信息,比如Apache Solr。唯一需要Nutch的东西是能够抓取您的网站,因此它需要访问,并可能是一个网站地图,但不是一个集成。对? –
感谢您的宝贵答案。正如你所说的是正确的,我已经通过复制apache solr搜索模块中的schema.xml,solrconfig.xml和protwords.txt文件来配置Drupal和apache solr,它可以在索引和搜索时正常工作。内容被编入索引到核心。现在apache nutch有抓取的数据。这将被移动到apache solr核心。为此,我们需要像在nutch中那样更改apache solr schema.xml文件。如果我移动这个nutch,并且apache solr可以很好地将内容索引到solr Core。 – Ramesh
我需要的是,爬网的内容(nutch内容)也被索引,并且网站的内容(drupal 7)也要在apache solr的相同核心中编入索引。为此,您可以采取哪些措施来帮助我? – Ramesh