2016-05-12 70 views
0

我在尝试更新HDP体系结构,以便驻留在Hive表中的数据可以通过REST API访问。如何将数据从HDP公开到其他服务的最佳方法是什么?使用REST服务访问Hadoop数据

这是我最初的想法:

我存储配置单元表中的数据,我想揭露一些通过REST API的信息,所以我觉得用HCatalog/WebHCat将是最好的解决方案。但是,我发现它只允许查询元数据。 enter image description here

我在这里有什么选择?

谢谢

+0

当你说,访问蜂巢表,你的意思只是读他们喜欢做'SELECT * FROM mytable',或者你希望做很多更复杂的要求? – user1314742

+0

我将不得不使用过滤器(即日期范围内的过滤器数据,这意味着我必须将两个参数传递给API请求 - 开始日期和结束日期) –

+0

恐怕您无法使用配置单元来实现这一点。但如果你想检索数据,你可以使用Web hdfs REST api。作为解决方法,您可以使用Spark,并使用spark-jobserver https://github.com/spark-jobserver/spark-jobserver – user1314742

回答

0

为Apache的Hadoop生态系统中的REST API网关被称为KNOX

我会检查它之前探索任何其他选项。换句话说,你有什么理由避免使用KNOX?

+0

不,它只是KNOX组件当前不可用,正在努力 –

0

你运行的是哪个版本的HDP? Knox组件已经有相当长的一段时间了,可以通过Ambari进行管理。

你能得到一个运行在HTTP模式下的HiveServer2实例吗? 这将为您提供通过J/ODBC驱动程序的SQL访问,而不需要客户端计算机上的Hadoop配置和二进制文件(驱动程序所需的除外)。