2015-02-24 33 views
1

我有一个关于查看crawldb/segments文件夹中的数据的问题。我看到段文件夹中有一个content/part-00000文件夹。如何转储数据(或查看数据)?在nutch抓取/分段文件夹中查看数据

这是我所看到的,当是类型ESC :%!xxd二进制文件(我删除了十六进制代码)

SEQ.org.apache.hadoop.io.Text 
org.apache.nutch.parse.ParseText. 
.org.apache.hadoop.io.compress. 
DefaultCodec http://localhost:8001/a.html 

和多个字符这样。

这没什么意义。这看起来不像我在本地页面上的数据。有没有另外一种方式来看待这个问题,还是应该看一个不同的地方?

回答

1

运行从Nutch的家以下命令:

bin/nutch readseg -dump crawl/segments/your_segment output -nofetch -noparse -noparsetext 

要知道什么命令,你可以使用Nutch使用,尝试运行

bin/nutch 

我希望帮助。