2010-10-12 35 views
0

我有两组具有相同级别的粒度的数据,例如发票号。当我们确认以前发票的收入时,大多数所需数据都会每天更新。然而,这些数据中的一部分每个月通过一个单独的成本系统提供,然后通过附加信息将数据提供给数据仓库。我应该创建一个包含两组数据的事实表,然后在其他数据导入时每月在事实表上运行一次更新,或者由于不同的更新计划创建两个事实表。数据是相关的,许多查询(〜35%)将需要来自两组数据(当可用时)的信息。系统每天向事实表导入30,000行,其中约有38,000,000行,每月更新会影响660,000行。具有不同更新计划的事实表

+0

从你的帖子中不清楚你是否会创建重复条目。 “一些数据通过成本系统提供”。这是否意味着直到成本计算系统步骤之后才将其转入DWH,或者是否将所有数据转移到DWH,并将一些数据也发送到成本系统? – 2010-10-12 21:44:42

+0

不会有重复。输入成本系统的数字已经存在于数据仓库中,并且不会重新输入。只会插入新的数据元素(事实)。 – 2010-10-13 13:27:56

回答

4

如果在第二步中未修改已有的度量值,则可以将事实表视为“累积快照”。 该表描述了具有明确开始和最终种类工作流程的流程。在Kimball的数据仓库工具包中查看它,或者只是谷歌的“Kimball累积快照事实表”。

+0

这看起来像是我正在做的很棒的比赛,谢谢。 – 2010-10-13 14:23:23