2015-08-28 63 views
0

具体的数据我看到一些搜索网站如http://homes.mitula.ph/homes/makati,我不知道他们是如何抓取数据在其他网站如priceimagedescription并显示给他们的网站。的Web爬行使用Solr的Nutch的

我正在考虑使用Solr来索引数据和Nutch来抓取它。我不熟悉网络爬行和索引,到目前为止,我只能抓取网页的内容。

Can Solr Nutch能做这种爬行吗?如何?

回答

1

没有'SOLR Nutch'这样的东西。他们是单独的项目。

您可以在Nutch中编写HTMLParseFilters并实现提取逻辑,然后配置索引筛选器以便将数据发送到SOLR。

顺便说一句,你可能会发现StormCrawler更易于使用和扩展。它有一个ParseFilter implementation,它采用XPath表达式从网页中提取信息。

当然,你也可以在Nutch的HTMLParseFilter中做同样的事情,但它需要编写一些代码并将其放入自定义插件中。