我在hdfs中有一个非常大的hadoop序列文件。 从中获取数据的最佳方式是什么?即选择记录等。hadoop - 从非常大的序列文件中获取数据的最佳方式是什么?
可以通过配置单元完成吗? 我如何在序列文件的配置单元中创建一个表?
感谢
我在hdfs中有一个非常大的hadoop序列文件。 从中获取数据的最佳方式是什么?即选择记录等。hadoop - 从非常大的序列文件中获取数据的最佳方式是什么?
可以通过配置单元完成吗? 我如何在序列文件的配置单元中创建一个表?
感谢
如果您需要您应该考虑将数据加载到某种(DB或NoSQL的商店,如HBase的,Accumulo)的数据存储中的数据“快速”访问。
另一种选择(如果你可以重新写你的数据),是考虑使用一个MapFile - 这对你的序列文件中的密钥创建索引并提供更快获得比较完整的文件扫描数据。
否则,如果你想使用蜂巢,有关于这个确切主题蜂巢邮件列表上线:
我的注意力不在于关注性能的“快速”。它关注发展的'快速'。我只需要进行一些随机分析。不要为每一个或每次我想要写mapreduce。 如果我使用hbase,我如何将序列文件加载到hbase? – user1251654 2012-07-08 05:08:32
如果随机分析是你之后的话,那么我会考虑使用Pig。至于将序列文件加载到hbase中,您需要编写map reduce作业来读取seq文件并将数据写入hbase,或将输出格式更改为“HFileOutputFormat”,然后进行批量加载。 – 2012-07-08 11:02:24
你看着外部表? – Olaf 2012-07-05 19:26:57