2011-04-01 74 views
0

我需要解释将其各种来源的事务(和其他)数据转换为数据仓库时可能遇到的实际问题。据我所知这是关于清理和清理数据。如果有人知道任何实际问题请帮助我。谢谢你的帮助在数据仓库中转换数据的实际问题

回答

0

你给你的问题的答案。

据我所知,这是关于清洗和清理数据。

而且你是对的。清理数据意味着您拥有全公司范围的清洁元素属性以及将不洁元素更改为干净元素的映射。

与创建公司范围的清洁元素属性列表相比,处理干净元素属性的数据是小菜一碟。

您必须让来自不同部门的人员就要存储哪些数据达成一致,并就每个要素的含义达成一致。这是一个困难的社会问题。这不是一个非常困难的技术问题。

祝您好运,让您的公司范围内的清洁元素属性。

2

这是一个广泛的话题,但我会提供一些很好的起点。

对于初学者,请考虑历史。如果交易更​​新了某个数据点,您是否需要追溯应用,或者您是否需要记住任何给定时间点的价值。例如,假设您有按城市分的客户月度报告,并且您的一位客户会移动。 DW如何反映这一点。

想想数据的接受程度。每个输入行都是一个很好的输入吗?例如,如果您正在处理网络数据,那么您可能不希望在统计用户流量时计数相同的抓取工具和垃圾邮件发送者。

想想数据同步。你所有的输入是否使用相同的密钥?你知道如何翻译它们吗? A队是否和B队一样,用“cust_id”表示同样的东西?项目词汇表在这里非常有帮助。

想想本地化。你是在同一时区输入的吗?他们都使用相同的日历系统吗?你需要处理unicode吗?

想想报告。您所捕获的数据是否能够回答人们要求DW的问题?如果不是,你如何捕获可能的数据?

想想演示文稿。您是否应该向客户展示您用于内部报告的相同数据?财务部门是否需要看到与营销不同的数据部分?

这真的只是抓住主要DW项目出现的问题的表面。我会把你推荐给Ralph Kimball关于数据仓库的各种书籍,以便更深入地讨论问题和解决方案。希望这可以帮助你开始。