2011-12-30 81 views
0

我正在爬取不同的行业数据并将数据存储到单个hbase表中。例如,我正在抓取电子和计算机行业,并将其存储在名为“industry_tbl”的表格中。现在我想对电子和计算机行业的数据集执行缩减地图,并用收集的不同数据集产生缩减器的输出,但是现在HBbase正在将这两个行业的整个数据都收集起来,并给出了减少的结果。我无法区分行业。Hbase Map reduce and Index

任何关于如何解决这个问题的帮助或想法?

回答

0

将行业包含在您映射器中发布的密钥中。

+0

你可以请示例代码解释这一点吗?谢谢 – Karthik 2012-01-02 06:58:05

0

制作行业的HBase的重点和使用的最显著的部分传递到您定义的地图,减少

+0

是的,我可以包括,但假设如果我有10个行业,我需要明确定义或运行它们作为十个单独的工作。任何其他可以隐含地考虑密钥并在工业集中生成输出的替代方案?谢谢! – Karthik 2012-01-02 06:58:16

0

你可能也做了立柱上HBase的表扫描的扫描。 为了做到这一点,将特定行业的所有信息放在特定的行业专栏中。

例如,我的行业表可能看起来像这样。

对于一个给定的行:CF1,CF2科学技术等

这样,你的行业数据将被密切在某些地区划分,打倒你的查询时间。

现在我只需使用Scan api查询并包含要扫描的特定列族。

因此,扫描只会返回有关特定行业的详细信息。

这种情况下的行仍然会保持原来的状态。

希望这个解释有帮助。