我设法让apache nutch索引新闻网站并将结果传递给Apache solr。用tika为apache solr解析数据
使用本教程 https://github.com/renepickhardt/metalcon/wiki/simpleNutchSolrSetup唯一的区别是我决定改用Cassandra。
作为一个测试,我试图抓取Cnn,以提取出文章的标题和它的发布日期。
问题1:
如何从网页解析数据,提取日期和标题。
我已经找到这篇文章的插件。这似乎有点过时,并不确定它仍然适用。我也读过Tika也可以使用,但大多数教程都很旧。
http://www.ryanpfister.com/2009/04/how-to-sort-by-date-with-nutch/
另一个SO制品是本
How to extend Nutch for article crawling。我宁愿使用Nutch,只是因为那是我开始的。我真的没有偏好。
任何事情都会很有帮助。
是您的主要问题只抓住特定的HTML元数据字段(如“pubdate”和“标题”)? – 2014-10-29 03:43:12
是的,我想索引他们在solr。 – user3279550 2014-10-29 20:42:05
你的意思是nutch索引只有一些字段,但标题,日期字段不会索引到solr的权利? – Kumar 2014-10-31 04:03:14