2009-06-15 32 views
2

问题标题可能不正确,因为我的问题的一部分是尝试了解一些问题。保持数据模型协议的优点

我在寻找确保导入到数据库的数据(简单示例:Excel表格到Access数据库)的优点,并且应该使用相同的模式并且对业务需求也是有效的。

我有一个Excel表格包含没有规范化数据和Access数据库与规范化表。

Excel表格来自多个第三方,其中没有一个使用相同格式的数据库或数据库。

某些来源也不提供所有相关数据。

的有什么可以提供

contact_key,日期,CONTACT_TITLE,reject_name,reject_cost,count_of_unique_contact

count_of_unique_contact从不同CONTACT_TITLE的衍生和不应该导入示例。 contact_key有时不提供。 标题有时是未知的,并以“n/a”,“name = ?? 1342”,“#N/A”等形式传递,而非随机。 reject_name经常会拼写错误。有时甚至不提供田地,例如日期和contact_key丢失。

我试图找到信息来帮助解释上述问题。 仅涉及错误数据或字段的问题使得难以在数据库中获得有用的数据,例如无法在没有提供日期的月份内报告拒绝成本趋势。规范化excel文件不是我可以选择的选项。

要求Excel文件中的值和字段与业务要求和格式相匹配,以便每个发送它们的第三方都是我想要做的,但请求却充耳不闻。

我想向客户解释,输入虚假数据和始终检查无效/现有拒绝/联系人是否是错误的,并且如果不持续维护较差的系统,那么这样做会失败或者最好很困难。

有没有人有关于这个问题的任何信息?

谢谢

回答

3

这是一个常见问题;这在数据处理圈被称为“垃圾进入,垃​​圾出”。从本质上讲,你碰到的是所给出的数据质量差,你应该认识到问题在于使用这些数据来提取任何有用的信息将会很困难(如果不是不可能的话)。

从某种程度上来说,这是一个应该从源头上解决的问题;无论您的数据来源如何,都需要确信数据质量必须提高。在短期内,您可以通过对您的数据进行清理;该术语是指删除或清除错误的条目,以使剩余的数据(“好”数据)可导入到数据库中。根据您的数据中有多少百分比不好,在导入数据后,您可能会或可能无法对清理过的数据执行有用的操作。

在某些情况下,由于您没有获得有关数据质量的管理方面的支持,您只需向他们展示系统无法按预期工作,因为数据质量很差。他们需要在那个时候改进他们的流程,以提高当时您获得的数据的质量。尽管如此,为了获得更好的数据而不断努力。调查清理数据的过程,看看你可以用剩余的数据做什么。祝你好运!

+2

这是IT中常见的惯例,用于生成我们以前称之为“编辑报告”的内容,说明哪些数据验证失败。务必向管理层明确哪些数据不好,然后确定不要使用不良数据。如果你还可以保存一个文件中只有不好的数据,并且可能将它附加到发送给管理员的电子邮件中,那么这可能会有所帮助。 – 2009-06-16 04:26:27