0

有没有人曾将Google Analytics数据转移到Azure中?我已经看到了一些方法来做到这一点,但我不知道我在做什么。 Google Analytics(分析)数据变得相当庞大,我想知道它是否最适合将其保留在谷歌存储中,并从Azure访问它或将它移动到HDInsight或Data Lake之类。我需要跨几个不同的数据存储,SQL Azure,Blob和表存储来加入数据。我还在研究Apache Drill和Presto作为统一数据访问的可能解决方案。只是想看看有没有人处理过这个问题,并有任何经验可以分享。谢谢!Azure中的Google Analytics数据

+0

这是最适合的@ https://groups.google.com/group/presto-users –

回答

0

前言

我没有与普雷斯托经验,所以我只能在具有钻这样做的可行性评论。另外我还没有使用Azure服务,所以我的建议是理论上的。

钻存储插件

钻将让你从不同来源的数据进行任何你想要的SQL查询,前提是每个数据源具有存储插件。存储插件只是Drill中的一段代码,它允许您与数据源进行交互。由于您关注的是对3个数据源执行查询,因此我们需要确定这3个数据源中的每一个是否都有Storage插件。

SQL Azure的

我认为SQL Azure的有Java的JDBC驱动程序。如果是这样,则可以将Drill配置为使用SQL Azure,方法是遵循these instructions

天青斑点

天青BLOB存储具有钻用来读取从文件系统中的数据Hadoop的文件系统API的实现。因此,理论上您可以将hadoop-azure jar及其依赖项https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-azure/2.7.0添加到Drill的类路径并配置Drill的DFS存储插件以使用它。

此外,Azure Blob中的数据必须以受支持的文件格式存储,如:json,parquet,csv或hadoop序列文件。

Azure Table中

这看起来像微软定制的NoSQL数据库。目前Drill不支持它。

结论

有了一定的工作量,你可以使用钻查询两个SQL Azure中和BLOB数据,而不是Azure Table中。