2017-09-26 441 views

回答

1

与Dataproc为什么同时提供Hadoop和Spark相同的原因:有时一种编程模型最适合工作,有时候是另一种。同样,在某些情况下,最适合这项工作的是由Dataflow提供的Apache Beam编程模型。

在很多情况下,一个重要的考虑因素就是已经有一个针对特定框架编写的代码库,并且只想将其部署到Google Cloud上,所以即使比方说Beam编程模型优于Hadoop ,那些拥有大量Hadoop代码的人可能仍然会选择Dataproc,而不是在Beam上重写他们的代码以在Dataflow上运行。

Spark和梁编程模型之间的差异是相当大的,而且有很多的使用情况下,每一个具有比其他的一大优势。见https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison

8

是的,云计算数据流和云Dataproc都可以用来实现ETL数据仓库解决方案。

为什么这些产品都存在一个总览可以在谷歌Cloud Platform Big Data Solutions Articles

快速外卖发现:

  • 云Dataproc为您提供Hadoop集群,对GCP,并获得Hadoop-生态系统工具(如Apache Pig,Hive和Spark);这有很强的吸引力,如果你已经熟悉的Hadoop工具,并有Hadoop作业
  • 云数据流为您提供了运行Apache Beam基于工作的地方,在GCP,而你并不需要解决集群上运行的作业的共同方面(例如,平衡工作,或缩放作业的工作人员数量;默认情况下,这是自动管理的,适用于批处理和流媒体) - 在其他系统上这可能非常耗时
    • Apache梁是重要的考虑因素;梁作业准备移植跨越“跑腿”,其中包括云数据流,并让你专注于你的逻辑运算,而不是一个“亚军”的工作方式 - 相比较而言,创作火花作业时,你的代码是绑定到亚军,星火,而亚军是如何工作的
    • 云数据流也提供了创建基于“模板”,它可以帮助简化其中的差异参数值
常见任务作业的能力