1
我有一个关于查看crawldb/segments
文件夹中的数据的问题。我看到段文件夹中有一个content/part-00000
文件夹。如何转储数据(或查看数据)?在nutch抓取/分段文件夹中查看数据
这是我所看到的,当是类型ESC :%!xxd
二进制文件(我删除了十六进制代码)
SEQ.org.apache.hadoop.io.Text
org.apache.nutch.parse.ParseText.
.org.apache.hadoop.io.compress.
DefaultCodec http://localhost:8001/a.html
和多个字符这样。
这没什么意义。这看起来不像我在本地页面上的数据。有没有另外一种方式来看待这个问题,还是应该看一个不同的地方?