Google Cloud Dataflow和Google Cloud Dataproc有什么区别？

我正在使用Google Data Flow来实施ETL数据仓库解决方案。Google Cloud Dataflow和Google Cloud Dataproc有什么区别？

展望谷歌云产品，似乎DataProc也可以做同样的事情。

它似乎DataProc比DataFlow便宜一点。

有谁知道数据流超过DataProc

的优点/缺点，为什么谷歌同时提供？

2017-09-26 KosiB

与Dataproc为什么同时提供Hadoop和Spark相同的原因：有时一种编程模型最适合工作，有时候是另一种。同样，在某些情况下，最适合这项工作的是由Dataflow提供的Apache Beam编程模型。

在很多情况下，一个重要的考虑因素就是已经有一个针对特定框架编写的代码库，并且只想将其部署到Google Cloud上，所以即使比方说Beam编程模型优于Hadoop ，那些拥有大量Hadoop代码的人可能仍然会选择Dataproc，而不是在Beam上重写他们的代码以在Dataflow上运行。

Spark和梁编程模型之间的差异是相当大的，而且有很多的使用情况下，每一个具有比其他的一大优势。见https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison。

2017-09-26 23:16:44 jkff

是的，云计算数据流和云Dataproc都可以用来实现ETL数据仓库解决方案。

为什么这些产品都存在一个总览可以在谷歌Cloud Platform Big Data Solutions Articles

快速外卖发现：

云Dataproc为您提供Hadoop集群，对GCP，并获得Hadoop-生态系统工具（如Apache Pig，Hive和Spark）;这有很强的吸引力，如果你已经熟悉的Hadoop工具，并有Hadoop作业
云数据流为您提供了运行Apache Beam基于工作的地方，在GCP，而你并不需要解决集群上运行的作业的共同方面（例如，平衡工作，或缩放作业的工作人员数量;默认情况下，这是自动管理的，适用于批处理和流媒体） - 在其他系统上这可能非常耗时
- Apache梁是重要的考虑因素;梁作业准备移植跨越“跑腿”，其中包括云数据流，并让你专注于你的逻辑运算，而不是一个“亚军”的工作方式 - 相比较而言，创作火花作业时，你的代码是绑定到亚军，星火，而亚军是如何工作的
- 云数据流也提供了创建基于“模板”，它可以帮助简化其中的差异参数值

常见任务作业的能力

2017-09-27 00:44:46

回答