我正在使用Google Data Flow来实施ETL数据仓库解决方案。Google Cloud Dataflow和Google Cloud Dataproc有什么区别?
展望谷歌云产品,似乎DataProc也可以做同样的事情。
它似乎DataProc比DataFlow便宜一点。
有谁知道数据流超过DataProc
的优点/缺点,为什么谷歌同时提供?
我正在使用Google Data Flow来实施ETL数据仓库解决方案。Google Cloud Dataflow和Google Cloud Dataproc有什么区别?
展望谷歌云产品,似乎DataProc也可以做同样的事情。
它似乎DataProc比DataFlow便宜一点。
有谁知道数据流超过DataProc
的优点/缺点,为什么谷歌同时提供?
与Dataproc为什么同时提供Hadoop和Spark相同的原因:有时一种编程模型最适合工作,有时候是另一种。同样,在某些情况下,最适合这项工作的是由Dataflow提供的Apache Beam编程模型。
在很多情况下,一个重要的考虑因素就是已经有一个针对特定框架编写的代码库,并且只想将其部署到Google Cloud上,所以即使比方说Beam编程模型优于Hadoop ,那些拥有大量Hadoop代码的人可能仍然会选择Dataproc,而不是在Beam上重写他们的代码以在Dataflow上运行。
Spark和梁编程模型之间的差异是相当大的,而且有很多的使用情况下,每一个具有比其他的一大优势。见https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison。
是的,云计算数据流和云Dataproc都可以用来实现ETL数据仓库解决方案。
为什么这些产品都存在一个总览可以在谷歌Cloud Platform Big Data Solutions Articles
快速外卖发现: