2016-07-05 110 views
0

我最近听到了很多,这是较好的做法是999999个或相似的价值观是在对基础数据字段的值在正常范围的更换损坏的值。损坏的数据最佳实践

这听起来,我认为这完全是疯狂的,必然导致误认为是新用户,当他们后来插上自己的Tableau或其他分析到数据仓库。

我其实没有看到这种方法的理由申请。

您对此有何看法?

+0

如果没有太多的坏数据,它不会使材质不同,你是在时间紧,而且没有一个积极的寻找中,它实际上是一个好主意业务数据之后。尽管我从来没有用这样的编号替换数据 - 总是清楚地表明它是不正确的,即“未知”角色成员。 –

回答

1

这家饭店目前确实有一些项目的使用由系统和东西不可能通过正常渠道(企业)的支持非常高的值在损坏的记录(数据质量差)或孤立记录的情况下进入(没有支持属性的记录)。

但我们总是在表示层中过滤这些记录以避免混淆最终用户。

另外,你可以使用负数而不是非常高的数字。但是我们需要在表示层中过滤这些记录的逻辑应该是相同的。通过这种方式,我们可以在将来对这些记录进行回顾性修正,并且可以通过过滤器轻松识别。

2

当谈到将在聚合和计算中使用的措施,我绝对不会推荐具有较高或超范围值的替换他们的价值观,用空值替换值是比较合适在这种情况下,因为它不会破坏结果。

的时候才来的尺寸和文字说明,最好的办法是在你的维度表中的一行来形容“未知”或“不适用”的价值和有一个ID与事实表连接。

+0

我完全同意你的看法;这是我所做的,除了任何具有良好SQL知识的人员能够随后对数据做任何他/她想要的事情之外。 – Breathe

+0

数字字段中NULL的问题在于分析或报告工具(或最终用户)可能会将其解释为零。这可能会导致不正确的聚合;例如,考虑任何平均值的含义。被问及的显然不正确的数字并不是一个完整的解决方案,但它们实际上可能比在数字字段中保留NULL的风险要小。 –