2014-09-22 85 views
0

我正在使用apache nutch将数据存储在使用hdfs作为其文件系统的hbase中。我想知道它存储在hbase中的哪些文档等。如何从hbase读取这些数据,例如一些pdf存储在hbase中。我想读它。我将如何去做。如何通过nutch查看存储在hbase中的hbase数据

请引导我吗?

回答

1

网页和文档存储为一行。如果你知道你的文档链接,你可以在hbase shell或其他工具(配置单元等)上获取它.Nutch将URL存储为反向URL。

E.g. “http://bar.foo.com:8983/to/index.html?a=b”变成“com.foo.bar:8983:http/to/index.html?a=b”。

约HBase的壳牌http://wiki.apache.org/hadoop/Hbase/Shell

+0

有一些工具来查看网络服务器上的数据的HBase例如信息apache – Shafiq 2014-09-25 04:18:14

+0

如何阅读pdfs – Shafiq 2014-09-25 04:18:57

+0

您可以使用HUE(http://gethue.com/)或HBASEExplorer(http://sourceforge.net/projects/hbaseexplorer/) – Talat 2014-09-25 04:48:30