我可以直接考虑类似于源（Teradata）表中存在的分区列的Hive分区列吗？

我可以直接考虑类似于源（Teradata）表中存在的分区列的Hive分区列吗？或者我是否考虑过其他参数来决定Hive分区列？请帮忙。我可以直接考虑类似于源（Teradata）表中存在的分区列的Hive分区列吗？

2016-08-05 Raj UK

这不是最佳实践。如果以这种方式创建数据，那么试图直接访问HDFS数据的人将无法在每个分区中找到“分区列”。例如，说Teradata表被date列分区，然后如果hive表也被date分区，那么HDFS分区表示2016-08-06将不具有日期字段。所以为了方便最终用户对虚拟列进行分区，例如date_d，它将与日期列的值完全相同。

来源

2016-08-05 19:14:27 abhiieor

抽象地，在Teradata和蜂巢分区是similar.To开始与你可能在你的源使用相同的列到分区表。

如果你的数据的大小在每个单个分区巨大的，再考虑进一步它分区，以提高performance.The多分区将主要取决于过滤器的数量，你在你的查询申请。

来源

2016-08-06 03:16:59 Venkateswara

我可以直接考虑类似于源（Teradata）表中存在的分区列的Hive分区列吗？

回答

相关问题