2017-08-24 63 views
0

我想查询使用hadoop的ghtorrent API提供的GitHub数据。我如何将这么多数据(4-5 TB)注入HDFS?另外,他们的数据库是实时的。是否有可能使用诸如pig,hive,hbase之类的工具来处理hadoop中的实时数据?使用Hadoop查询github数据

回答

1

经过this演示。它描述了您可以连接到他们的MySql或MongoDb实例并获取数据的方式。基本上你必须分享你的公钥,他们会把这个密钥加到他们的仓库中,然后你可以ssh。作为替代,你可以从this链接

进出口链接下载他们定期转储:

为了处理实时数据,你cannt做uisng猪,蜂房。这些是批量处理工具。考虑使用Apache Spark。