我需要以编程方式使用Hive访问数据(按每个查询GB数量的数据)。我正在评估CLI驱动程序Vs Hive JDBC驱动程序。配置单元JDBC Vs CLI客户端
当我们使用JDBC时,存在额外的节俭服务器开销&我想了解这有多沉重。如果多个客户端连接到单个节俭服务器,它也可能成为单点瓶颈吗?或者,人们在Hadoop上配置多个节俭服务器并执行一些负载平衡的事情是一种常见做法?
我在寻找更好的性能,而不是更快的原型。 在此先感谢。
我需要以编程方式使用Hive访问数据(按每个查询GB数量的数据)。我正在评估CLI驱动程序Vs Hive JDBC驱动程序。配置单元JDBC Vs CLI客户端
当我们使用JDBC时,存在额外的节俭服务器开销&我想了解这有多沉重。如果多个客户端连接到单个节俭服务器,它也可能成为单点瓶颈吗?或者,人们在Hadoop上配置多个节俭服务器并执行一些负载平衡的事情是一种常见做法?
我在寻找更好的性能,而不是更快的原型。 在此先感谢。
从性能角度来看,是的,节俭服务器可能成为瓶颈和SPF。我见过有人建立了多个与mysql元数据库交谈的节俭服务器。看看这个http://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/.Hope它有帮助。
胜杰的链接不工作 - 这可能正确地自动地linkify:
http://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/
您提供的链接中的网页显示“此页面无法显示”。你能提供一个有用的工作链接吗? – 2018-02-22 14:21:53
您可以尝试使用连接池。我有一个类似的问题,通过JDBC提交配置单元查询所花费的时间比配置单元cli多。
在连接字符串中还别说几个参数如下:
的jdbc:hive2://服务器:PORTNO /; hive.execution.engine = TEZ; tez.queue.name = ALT; hive.exec。平行= TRUE; hive.vectorized.execution.enabled = TRUE; hive.vectorized.execution.reduce.enabled = TRUE;
您的链接不起作用! – 2018-02-22 14:23:17