0
我想查询使用hadoop的ghtorrent API提供的GitHub数据。我如何将这么多数据(4-5 TB)注入HDFS?另外,他们的数据库是实时的。是否有可能使用诸如pig,hive,hbase之类的工具来处理hadoop中的实时数据?使用Hadoop查询github数据
我想查询使用hadoop的ghtorrent API提供的GitHub数据。我如何将这么多数据(4-5 TB)注入HDFS?另外,他们的数据库是实时的。是否有可能使用诸如pig,hive,hbase之类的工具来处理hadoop中的实时数据?使用Hadoop查询github数据