2017-02-22 93 views
2

我不想使用ADL和ADLA作为黑匣子。我需要了解齿轮如何旋转发动机以有效的方式使用它。我可以有任何关于Azure Data Lake内部的书吗?

在哪里可以找到描述内部信息:

  1. U型SQL查询是如何处理
  2. 并行是如何工作
  3. 如何存储在ADL低电平组织
  4. 如何DB的存储在ADL中以低级别组织(是行存储还是列存储)
  5. 如何组织分区
  6. etc

存在很多描述RDBMS引擎内部的书籍和whitepappers。它是否存在ADL/ADLA?

有很多人在Azure中工作。你能否发布任何草稿/白皮书以便原样使用(不自觉地)。

回答

4

某些信息可在我们提供的演示中找到。例如,您可以在我的slideshare帐户中找到以下部分演示文稿:http://www.slideshare.net/MichaelRys

为了回答大家的一些问题上面:

U型SQL表的电流聚集索引版本存储在构造为所谓的结构化数据流文件的目录文件夹。这些都是高度可压缩的,可扩展的文件,这些文件使用具有自包含元数据和统计信息的行导向结构(可以创建更详细的统计信息)。表结构提供2级分区:可寻址分区和内部分配方案(HASH,RANGE等)。两者都有助于并行化,尽管分配方案更多的是性能,而分区更多地用于数据生命周期管理。虽然每个分发桶的最佳位置是1GB到4GB,但它们没有限制。

1 AU基本上是1个容器。 ADLS不是HDFS体系结构,但提供了WebHDFS API兼容性。

+0

再次为真棒解释大thanx! – churupaha

+0

看起来像ADL团队将实施二级索引和列存储支持?我在演示文稿中阅读https://www.slideshare.net/mobile/MichaelRys/tuning-and-optimizing-usql-queries-sqlpass-2016你知道他们何时计划实施它吗? – churupaha

+0

这是未来的路线图,我们目前没有这些项目的ETA。 –

1

这是一个相当广泛的问题。我假设你已经开始使用ADLA和U-SQL上的现有文档了? https://docs.microsoft.com/en-us/azure/data-lake-analytics/ https://msdn.microsoft.com/library/azure/mt591959

ADLA GA'd在2016年十一月,相比于1987年的SQL Server - 这是一个非常苹果和桔子比较。

也许我们可以从您的具体问题开始?

+0

是的sql服务器非常成熟。但它有很多新的节日。我们可以从技术人员那里深入解读这些功能在这些功能发布之前的不足之处。好的,让我们从具体的问题开始。你能解释一下,u-sql表是什么?它是rowstore还是columnstore?从各个角度来看什么是分区(并行化,过滤,可管理性等)。什么是分配?这与Azure DWH的情况相同吗?分区和分布如何影响parallelizm。桌/分区/分布有多大? – churupaha

+0

从parallelizm的角度来看,什么是偏斜分布。有关列的统计信息呢?如何usql引擎选择一个具体的执行计划(我的意思是“图”与顶点)...聚集索引是一样的SQL服务器? – churupaha

+0

是分析单元= YARN集装箱发动机? – churupaha

相关问题