2014-09-29 90 views

回答

0

可以使用Nutch的dump命令

下面是语法:

​​

例子:

bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments 
0

正如你当然知道,抓取数据存储在段。实际上,你可以使用提取readseg命令(例如)这些数据:

bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir 

其中my_dump_dir是你的目录,这将创建并包含转储。

然后在你的my_dump_dir你会发现两个文件:转储(包含抓取和分析数据 - non_encoded),并.dump.crc(我猜一些二进制)。他们用任何文本编辑器查看转储并查看结构。如果你需要,你也可以解析它。