我是新来的火花和sparkR,我的问题如下: 当我写下面的代码: 1)。设置环境并启动spark.session()使用sparkR处理数据时,程序真正在哪里运行?
sparkR.session(master = "my/spark/master/on/one/server/standaloneMode", , sparkConfig = list(spark.driver.memory="4g",spark.sql.warehouse.dir = "my/hadoop_home/bin",sparkPackages = "com.databricks:spark-avro_2.11:3.0.1"))
然后我写道:
rund <- data.frame(V1 = runif(10000000,100,10000),V2 =runif(10000000,100,10000))
df <- as.DataFrame(rund)
这里是东西:
1)。该计划在何处做'分裂'?在我的本地机器上还是在服务器上? 2)。另外,谁能告诉我程序在哪里运行代码“as.DataFrame()”?在我的电脑或我的服务器上设置为spark的standalone_mode。
谢谢艾克。 我没有关于分布式计算系统领域的相对BG,并且对spark和sparkR是新的,所以我在这几天遭受了很多。 hhaa 如果你有时间,你能帮我提一下我的另一个问题吗? http://stackoverflow.com/questions/39683374/sparkr-cannot-read-data-at-deployed-workers-but-ok-with-local-machine –
乐于帮助,欢迎来到Stack Overflow。如果此答案或任何其他人解决了您的问题,请将其标记为已接受。 – Aeck