2016-11-12 40 views
-1

目前我面临数据性能不佳的问题。 例如。 hive表中的数据, 列:country,state,customer_name配置单元中的数据性能问题

列状态中存在拼写错误。 (即)TN但输入TM

请帮助我如何通过清除坏数据来克服这个问题。

回答

0

我推荐将数据加载到临时表,然后负载交叉验证主表:数据状态表等(SELECT * FROM其中State存在于temp_tbl(从STATE_TBL选择“d”,其中parent.state =状态)

这种方式程序不会失败并将错误捕获到其他记录或文件中。