2016-08-19 36 views
0

我试图为不同的站点选择apache spark集群的拓扑结构。火花是否有自己的意识能力?apache spark是否具有地理意识?

例如假设在俄勒冈州和槟城有工人群。

现在提交一个应用程序,该应用程序从俄勒冈州加载数据并将其保存回俄勒冈州。俄勒冈州的工人会被首选(如果他们是免费的)? 尚未找到有关此主题的文档。

+1

Spark本身不具有地理意识。即它不知道你是否在俄勒冈州和槟城有工人,并且因为数据在那里而只在俄勒冈州排队。您需要构建您的群集,以便与具有最低网络延迟的工作人员一起运行特定作业。 –

回答

2

如这里描述https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html

火花依赖于数据局部性,又名数据放置或邻近数据 源,使火花作业,其中数据位于敏感。 因此,如果数据来自HDFS,那么在Hadoop YARN群集 上运行Spark是非常重要的。数据系统本身可以是地理感知的,例如, cassandra:Does Spark use data locality?http://www.slideshare.net/RussellSpitzer/spark-cassandralocality

相关问题