我有一个关于ElasticSearch和Apache Nutch集成的问题。ElasticSearch和Nutch集成
我试图按照这里
http://www.aossama.com/search-engine-with-apache-nutch-mongodb-and-elasticsearch/
具体列出
https://gist.github.com/xrstf/b48a970098a8e76943b9
https://qbox.io/blog/scraping-the-web-with-nutch-for-elasticsearch
和
的Nutch的+ ES导游,我是能够建立HDFS + HBase + Nutch并抓取页面列表(我可以确认数据确实已被抓取并且存储在HBase的网页表中)。我还可以得到ElasticSearch和Kibana没有问题的工作(成功创建新的索引,并插入一些记录,证实Kibana工作)
但是,我不能让他们组合工作。基本上,我后,我做了Nutch的以下命令:
nutch inject <file_containing_url>
nutch generate -topN 1
nutch fetch -all
nutch parse -all
nutch updatedb -all
现在,我要编制索引的读入数据到ES,我跟着指南:
nutch index elasticsearch -all
然而,该命令后,完成执行,ElasticSearch中没有任何更改。在运行时/本地/日志的记录显示:
elastic.ElasticIndexWriter - Processing remaining requests [docs = 0, length = 0, total docs = 0]
这让我相信ES没有被Nutch的要求指标的任何东西。
我在整个过程中哪里做错了?我必须指定一些有关ES的事情吗?
仅供参考:下面是一些操作系统/工具的详细信息: CentOS 6.7,HBase 1.1.3 ElasticSearch 1.7.5,Nutch 2.3.1。 我已经修改的Nutch-site.xml中包括ES的属性:
<property>
<name>plugin.includes</name>
<!-- do **NOT** enable the parse-html plugin, if you want proper HTML parsing. Use something like parse-tika! -->
<value>protocol-httpclient|urlfilter-regex|parse-(text|tika|js)|index-(basic|anchor|more)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-elastic</value>
</property>
<property>
<name>elastic.host</name>
<value>10.5.140.112</value> <!-- where is ElasticSearch listening -->
</property>
<property>
<name>elastic.cluster</name>
<value>nutch</value>
</property>
<property>
<name>elastic.index</name>
<value>nutch</value>
</property>
<property>
<name>elastic.port</name>
<value>9300</value>
</property>
谢谢大家这么多的帮助!