1
A
回答
0
默认情况下,Hbase不理解存储哪种类型的数据。我想你可以在HBase shell中使用readdb命令(http://wiki.apache.org/nutch/bin/nutch%20readdb)从网页表中提取数据。
0
可以使用Nutch的dump命令
下面是语法:
例子:
bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments
0
正如你当然知道,抓取数据存储在段。实际上,你可以使用提取readseg命令(例如)这些数据:
bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir
其中my_dump_dir是你的目录,这将创建并包含转储。
然后在你的my_dump_dir你会发现两个文件:转储(包含抓取和分析数据 - non_encoded),并.dump.crc(我猜一些二进制)。他们用任何文本编辑器查看转储并查看结构。如果你需要,你也可以解析它。
相关问题
- 1. 使用CrawlDbReader读取Nutch抓取数据
- 2. 如何使用猪脚本从网络抓取的数据中提取特定数据(nutch)
- 3. 我如何使用nutch从hbase抓取数据
- 4. 如何使用apache nutch在少数主题上抓取数据?
- 5. 如何从XML中提取数据,然后提取数据
- 6. 如何从网页上抓取数据?
- 7. 如何从网站上抓取数据
- 8. 数据抓取从LinkedIn
- 9. php从javascript抓取数据
- 10. 从ASP.NET webForm抓取数据
- 11. 从URL抓取数据Php
- 12. 在nutch抓取/分段文件夹中查看数据
- 13. 如何抓取Nutch中的图像?
- 14. 抓取并从xpath表中提取数据
- 15. JTable:抓取数据?
- 16. Python数据抓取
- 17. 如何从包含循环的函数中抓取数据
- 18. laravel从数据库中提取数据
- 19. 从Pandas数据框中提取数据
- 20. 从数据对象中提取数据
- 21. 从数据库中提取数据
- 22. scrapy/Python抓取但不抓取数据
- 23. 如何从Promise中提取数据
- 24. JavaScript - 如何从HTML中提取数据?
- 25. 如何从SipleXMLElement中提取数据?
- 26. 如何从此JSON中提取数据?
- 27. 如何从JSON数据中提取URL?
- 28. 如何从pymodbus中提取数据?
- 29. 如何从getJson中提取数据?
- 30. 如何从DataTable中提取数据?