我很新的Hadoop的和我目前正试图加入两个数据源,其中的关键是间隔(比如[日期开始/日期结束])。例如:的Hadoop:间隔,并加入
输入1:
20091001-20091002 A
20091011-20091104 B
20080111-20091103 C
(...)
输入2:
20090902-20091003 D
20081015-20091204 E
20040011-20050101 F
(...)
我想找到所有的地方key1的重叠KEY2的记录。 hadoop有可能吗?我在哪里可以找到实施的例子?
谢谢。
皮埃尔,不知道如果你想通了这一点,但任何想法猪是这个? – Jilles 2010-12-08 18:30:30
Biostar提供了一个解决方案:http://biostar.stackexchange.com/questions/8821 – Pierre 2011-06-05 08:13:46