2016-08-05 47 views

回答

1

这不是最佳实践。如果以这种方式创建数据,那么试图直接访问HDFS数据的人将无法在每个分区中找到“分区列”。例如,说Teradata表被date列分区,然后如果hive表也被date分区,那么HDFS分区表示2016-08-06将不具有日期字段。所以为了方便最终用户对虚拟列进行分区,例如date_d,它将与日期列的值完全相同。

0
  • 抽象地,在Teradata和蜂巢分区是similar.To开始 与你可能在你的源使用相同的列到 分区表。

    如果你的数据的大小在每个单个分区巨大的,再考虑进一步 它分区,以提高performance.The多 分区将主要​​取决于过滤器的数量,你在你的查询申请 。