apache spark是否具有地理意识？

我试图为不同的站点选择apache spark集群的拓扑结构。火花是否有自己的意识能力？apache spark是否具有地理意识？

例如假设在俄勒冈州和槟城有工人群。

现在提交一个应用程序，该应用程序从俄勒冈州加载数据并将其保存回俄勒冈州。俄勒冈州的工人会被首选（如果他们是免费的）？尚未找到有关此主题的文档。

2016-08-19 Yosi Dahari

Spark本身不具有地理意识。即它不知道你是否在俄勒冈州和槟城有工人，并且因为数据在那里而只在俄勒冈州排队。您需要构建您的群集，以便与具有最低网络延迟的工作人员一起运行特定作业。 –

如这里描述https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html

火花依赖于数据局部性，又名数据放置或邻近数据源，使火花作业，其中数据位于敏感。因此，如果数据来自HDFS，那么在Hadoop YARN群集上运行Spark是非常重要的。数据系统本身可以是地理感知的，例如， cassandra：Does Spark use data locality?http://www.slideshare.net/RussellSpitzer/spark-cassandralocality

来源

2016-08-19 12:25:10

apache spark是否具有地理意识？

回答

相关问题