回答

5

好的,这里有两种技术之间的一些基本区别。

数据外形

  1. 谷歌大查询 - 他们请你把数据转换为一定 形状,如JSON,CSV或Avro公司。
  2. 数据湖泊 - 他们只是要求你转储你在湖中的任何东西,并且你可以在其上运行usql查询。

数据大小

谷歌大查询拥有超过文件大小限制 - https://cloud.google.com/bigquery/loading-data-into-bigquery#quota虽然他们是相当大的限制

数据湖 - 拥有超过文件大小正式没有限制,你实际上可以从一个PB字节文件开始。

最大的区别在于查询模型,但在此之前必须知道您还可以在Azure数据存储库上运行HBase工作负载,而HBase实际上是谷歌大表的开源实现,其他许多细微之处您可以在这里看到的差异http://www.larsgeorge.com/2009/11/hbase-vs-bigtable-comparison.html

谷歌大查询本身不是一个编译查询,而USQL是SQL语法和CLR功能的组合,USQL查询首先被编译,然后运行在数据存储上,这允许一个人编写自定义函数与他们的查询一起使用来解析或处理差异形式的数据。 甚至可以使用Azure数据湖工具可视化USQL查询的执行计划。 Big query和USQL都很容易理解和使用。

认证

  1. 谷歌大查询有标准的API认证 https://cloud.google.com/bigquery/authentication
  2. ADL - 应用程序和用户身份验证通过Azure的AD控制。

作为一个大数据平台都要求尊重,但我个人认为Azure的数据湖为更好的实现,因为它允许灵活地使用开源项目,如火花,风暴,蜂巢,猪等工作,而大表将您的功能限制在Google生态系统中。

连接与我在我的Twitter手柄@brijrajsingh,如果你可以把它做在GIDS班加罗尔下降的,我提供一个关于4月29日的数据湖泊会话年,2016年

+0

AFAIK你不能USQL查询上运行实木复合地板文件尚未正式支持。 – chhantyal