2014-10-19 90 views
0

我设法让apache nutch索引新闻网站并将结果传递给Apache solr。用tika为apache solr解析数据

使用本教程 https://github.com/renepickhardt/metalcon/wiki/simpleNutchSolrSetup唯一的区别是我决定改用Cassandra。

作为一个测试,我试图抓取Cnn,以提取出文章的标题和它的发布日期。

问题1:

如何从网页解析数据,提取日期和标题。

我已经找到这篇文章的插件。这似乎有点过时,并不确定它仍然适用。我也读过Tika也可以使用,但大多数教程都很旧。

http://www.ryanpfister.com/2009/04/how-to-sort-by-date-with-nutch/

另一个SO制品是本

How to extend Nutch for article crawling。我宁愿使用Nutch,只是因为那是我开始的。我真的没有偏好。

任何事情都会很有帮助。

+0

是您的主要问题只抓住特定的HTML元数据字段(如“pubdate”和“标题”)? – 2014-10-29 03:43:12

+0

是的,我想索引他们在solr。 – user3279550 2014-10-29 20:42:05

+0

你的意思是nutch索引只有一些字段,但标题,日期字段不会索引到solr的权利? – Kumar 2014-10-31 04:03:14

回答

0

Norconex HTTP Collector将与您的文档一起存储所有可能找到的元数据,而不受限制。范围从下载页面时获得的HTTP Header值到该HTML页面中的所有标签。

这可能对你来说太多了。如果是这样,你可以拒绝那些你不想要的,或者替代,从而明确了解​​您想要保留在你的配置中添加了“KeepOnlyTagger”你<importer>部分的:

<tagger class="com.norconex.importer.tagger.impl.KeepOnlyTagger" 
    fields="title,pubdate,anotherone,etc"/> 

你会发现如何以快速开始配置选项在这里:http://www.norconex.com/product/collector-http/configuration.html