2017-05-08 24 views
0

我是数据分析和大数据概念的新手。我坚持决定,实施我的要求的技术是什么。如何在数据中实现数据分析驻留在多个Oracle数据库中?

我需要的是如下:

我的客户端使用多个Oracle数据库作为其组织的ERP后端。这两个数据库具有不同的结构和不同类型的数据。我需要用来自这两个数据库的数据创建一个数据分析应用程序。我可以使用哪种技术来实现此实现。我可以使用Hadoop及其关联的应用程序吗?

如果我去与hadoop,我怎么能我的oracle数据库同步到hadoop。我正在寻找具有实时同步功能的解决方案。

或者我可以使用数据库的本地连接来实现数据库访问并创建我的新应用程序? 数据库的大小大约是1.5TB

回答

0

这个问题有很多层次,所以我会保持它在某种程度上的一般性,以便在正确的方向上给你一个推动。

您提出了两种方法 - 一种将您的数据保存在Oracle中,另一种将其引入Hadoop。

如果您留在Oracle中,您可能需要使用Informatica,Pentaho,SAS DI或SAS Enterprise等DI工具来查询不同模式下的不同表格,提取您需要的数据并从分析中调用本地步骤或通过集成Python,R或Weka脚本。

据我所知,Hadoop本身并不与Oracle集成,而是管理自己的文件系统HDFS。在Hadoop上运行的Sqoop作业可以从Oracle中提取并写入Hive或HBase表,然后您的集成将使用Spark上的Hive Context,从而使您可以执行分析。

您可以使用R或Python直接查询数据库。 Packt在使用R的商业智能中提供了一个指导,包括使用R的ETL(提取 - 转换 - 加载)过程章节。我会告诉你,这不是行业中常见的解决方案,因为R主要是分析师的语言,而不是ETL开发人员的工具。也就是说,R应该能够查询大多数Oracle数据库,除非它们很老,并且执行集成和分析。缺点是R的内核可能需要比RStudio更强大的处理能力和线程 - 这就是为什么Oracle SQL Developer和Toad能够很好地处理大规模查询的原因。 Python可能可以使用CX_oracle库来执行该方法。

相关问题