我想开发一个抓取工具来抓取youtube.com
并解析元信息(标题,描述,出版商等)并将其存储到Hbase /其他存储系统中。我明白我必须编写插件来实现这一点。但我很困惑我需要为此编写哪些插件。我与这四检查 -解析并存储使用Apache Nutch
Parser
ParserFilter
Indexer
IndexFilter
要解析的YouTube页面特殊元数据信息,我是否需要写一个自定义的解析器插件或ParseFilter插件使用parse-html
插件相处?
解析后,要将条目存储在Hbase /其他存储系统中,是否需要编写IndexWriter插件?通过索引,我们通常会理解Solr,ElasticSearch等中的索引。但是我不需要在任何搜索引擎中明显地进行索引。那么,如何在解析后将它们存储在某些商店中,并说Hbase呢?
在此先感谢!
现在问题已经很老了,我已经做了你最近在这里提出的建议。感谢您的详细解答。 –
对不起,延迟响应:) –
嗨@JorgeLuis你能回答这个问题吗? http://stackoverflow.com/questions/43993032/generate-only-unfetched-urls-instead-of-scored-nutch-2-3 –