2009-01-06 83 views
10

我与一个同事昨天关于他使用SSIS(或类似的东西)做一些很酷的东西用的SSIS包,他像一个名字传递的情况会说话“的雷金纳德·威廉姆斯博士,博士。”并根据一些加权方案,系统足够聪明地弄清楚如何对它进行标记并将其作为“Salutation-名 - 姓氏 - 后缀”存储在数据库中。他抛出了一些流行语,如BI,SSIS,ETL和数据挖掘。我真的想要更多的信息,但是甚至不知道从哪里开始提问。有人可以解释数据挖掘,SSIS,BI,ETL和其他相关技术吗?

我是.Net开发人员,对C#,Vb.Net,WPF等有着深入的了解,但我不知道这些技术是什么,如何将它们添加到我的技能集以及是否不是我真正应该关注的东西。任何和所有的方向将是有益的。

回答

21

SSIS == SQL Server集成服务,这是一个提取转换和加载(ETL)工具,它是SQL7,SQL2K时代数据转换服务或DTS的一个非常优秀的实现。其中数据从A点移动到B点(以及C和D等),并通过该过程进行变更,例如合并到非规范化设计或数据清理。

BI或商业智能是在高科技世界整个类别的绰号,这是一个伟大的地方现在。商务智能技能非常重要,很难实现,其中一个原因就是在实验室很难重新创建一个真正的商务智能案例,所以教学几乎总是在真实的世界中完成。

从一个高的水平,BI项目通常涉及报告的终点。通常,作为开发者,我们习惯于编写报告等交易报告,例如采购订单的详细信息,但BI可以涵盖非常广泛的报告,涵盖数十年的产品销售趋势并处理数亿条记录。我们为应用程序设计数据库的方式对于这种报告来说并不理想,因此其他工具和技术已经发明并用于BI领域。这些是您经常听到称为OLAP立方体的Cubes。 OLAP多维数据集通常来自数据仓库,它不过是另一个数据库 - 但典型的仓库包含来自多个数据库的数据,并且通常包含数十个其他应用程序数据库。您的库存应用程序,采购应用程序,人力资源应用程序以及其他许多应用程序都包含可创建完整业务图片的数据,BI架构师将使用类似SSIS的数据从所有这些系统中提取数据,按摩它并将其存储在数据仓库中,该数据仓库采用不同类型的设计来更好地进行报告。一旦在仓库中,他将使用分析服务为该数据创建多维数据集,并使用Reporting Services等向您显示有关该数据的报告。

编辑:对不起,忘了数据挖掘,它是描述了另一种非特异性的长期和概念或一个过程,没有那么多的工具。在一个简单的例子中,它是一种识别数据模式的系统方法。在过去,一个好的商业分析将通过数据来了解趋势,但是对于现代数据库,您所谈论的数据集方式太大而无法人工梳理 - 数据挖掘允许您指示计算机梳理数据并识别感兴趣的模式。

希望帮助

2

SSIS为SQL Server Integration Services,对于做ETL(提取,转换和加载)很有用,它是许多数据仓库/ business intelligence解决方案的前端,可将数据集成到易于使用的维度模型中。 SSIS对于较小的项目也很有用,可以方便地从其他存储库或文件加载旧数据或数据。

Data mining通常意味着使用来自集成源中的数据来推断那会不会是从交易数据明显(通过多种来源提供更多的“尺寸”的数据集成信息。

BI是一个很大的话题所以它可能不会是什么,除非你想进入这一领域的重点,但SSIS可以在较小的项目有用,值得学习一下在任何情况下。

3

你的同事也可能会被更好地描述为一个字符串的“智能分析”。这可以在许多复杂程度上完成 - 例如,使用统计模型为您提供“博士”的可能性,是一种称呼而不是名字。或者它可以使用简单的常见问候语查找列表,在这种情况下,它只是常规的程序代码,仅此而已。

SSIS是SQL Server Integration Services的缩写。它基本上是DTS类固醇;有些人喜欢它,有些人讨厌它。单独使用它来做你所谈论的事情会很棘手;它主要用于从各种来源获取数据并将其合并,转换并将其加载到其他位置。它可以做一些漂亮的事情,其中​​许多往往是数据挖掘,但最终它是一种用于单向或双向数据挖掘的生产工具。它在数据挖掘领域并没有得到特别好的尊重。

Data Mining是一个完整的学科,专注于使用一些(通常是大量的)数据来预测未来的答案或更好地理解现有数据中的模式。这绝对是一个很好的领域,但不是一些你可以在没有对数学和算法进行深入研究的情况下完成的任务。关于这个问题的好书是this one

“商业智能”实际上比特定技术更像是一种流行语,对不同的人来说意味着不同的事情。在基础上,这个想法建议用业务数据做少些愚蠢的事情,通常它指的是随着时间的推移分析趋势,通常使用OLAP。它也可能包括数据挖掘或AI算法,但由于没有严格的定义,任何想向您推销产品的人都会告诉您它提供了“商业智能”,并希望您不要再深究。

0

所有这些“新”术语的原因实际上是世界上数据的快速(指数)增长。BI (Wikipage)与术语“数据仓库”(它是BI流程中的中心实体)以及术语“数据挖掘”紧密相关。
有关ETL的更多信息。我只想补充一点,SSIS是微软的产品,但也有许多其他ETL工具,其中最着名的有:Informatica,Pentaho,IBM的Infosphere信息服务器,Oracle的Data Integrator和Talend等。ETL通常也是由任何编程语言(我们在Python甚至Golang都有它们)。