2012-01-16 141 views
2

我需要以编程方式使用Hive访问数据(按每个查询GB数量的数据)。我正在评估CLI驱动程序Vs Hive JDBC驱动程序。配置单元JDBC Vs CLI客户端

当我们使用JDBC时,存在额外的节俭服务器开销&我想了解这有多沉重。如果多个客户端连接到单个节俭服务器,它也可能成为单点瓶颈吗?或者,人们在Hadoop上配置多个节俭服务器并执行一些负载平衡的事情是一种常见做法?

我在寻找更好的性能,而不是更快的原型。 在此先感谢。

回答

0

您可以尝试使用连接池。我有一个类似的问题,通过JDBC提交配置单元查询所花费的时间比配置单元cli多。

在连接字符串中

还别说几个参数如下:

的jdbc:hive2://服务器:PORTNO /; hive.execution.engine = TEZ; tez.queue.name = ALT; hive.exec。平行= TRUE; hive.vectorized.execution.enabled = TRUE; hive.vectorized.execution.reduce.enabled = TRUE;