0
我在我的本地机器上运行pyspark
,我想限制我不使用的核心数量和使用的内存(我有8个核心和16GB内存)如何限制pyspark ressources
知道如何做到这一点,我试图将这些行添加到我的代码中,但是这个过程仍然很贪婪。
from pyspark import SparkContext, SparkConf
conf = (SparkConf().setMaster("local[4]")
.set("spark.executor.cores", "4")
.set("spark.cores.max", "4")
.set('spark.executor.memory', '6g')
)
sc = SparkContext(conf=conf)
rdd = sc.parallelize(input_data, numSlices=4)
map_result = rdd.map(map_func)
map_result.reduce(reduce_func)
为什么不应用conf?