0
我想将tika解析器包含到我的拓扑中。我已经在配置中将jsoup.treat.non.html.as.error
设置为false
,并且我已经按照storm crawler文档中的描述设置了tika拓扑。是使用Tika进行递归爬行的Storm Crawler配置
爬网拓扑结构的设置如下:
builder.setSpout("spout", new MemorySpout(testURLs));
builder.setBolt("partitioner", new URLPartitionerBolt()).shuffleGrouping("spout");
builder.setBolt("fetch", new FetcherBolt()).fieldsGrouping("partitioner", new Fields("key"));
builder.setBolt("sitemap", new SiteMapParserBolt()).localOrShuffleGrouping("fetch");
builder.setBolt("jsoup", new JSoupParserBolt()).localOrShuffleGrouping("sitemap");
builder.setBolt("shunt", new RedirectionBolt()).localOrShuffleGrouping("jsoup");
builder.setBolt("tika", new ParserBolt()).localOrShuffleGrouping("shunt", "tika");
builder.setBolt("indexer", new HBaseIndexerBolt(), numWorkers).localOrShuffleGrouping("shunt")
.localOrShuffleGrouping("tika");
builder.setBolt("status", new MemoryStatusUpdater()).localOrShuffleGrouping(Constants.StatusStreamName)
.localOrShuffleGrouping("sitemap", Constants.StatusStreamName)
.localOrShuffleGrouping("shunt", Constants.StatusStreamName)
.localOrShuffleGrouping("tika", Constants.StatusStreamName)
.localOrShuffleGrouping("indexer", Constants.StatusStreamName);
return submit("crawl", conf, builder);
采用这种拓扑结构,我收到无效的拓扑例外。问题似乎是由状态螺栓引起的。因为,当我排除状态螺栓时,我的爬网拓扑没有任何问题。我应该如何配置状态螺栓?
非常感谢。有用。 – isspek