我配置了Eclipse以便使用Spark和Python进行开发。 我配置了: 1. PyDev与Python解释器 2. PyDev与Spark Python源码 3. PyDev与Spark的环境变量。在Eclipse上没有名为py4j.protocol的模块(PyDev)
这是我的图书馆配置:
这是我的环境配置:
我创建了一个名为CompensationStudy项目,我想运行一个小例子,确保一切顺利。
这是我的代码:
from pyspark import SparkConf, SparkContext
import os
sparkConf = SparkConf().setAppName("WordCounts").setMaster("local")
sc = SparkContext(conf = sparkConf)
textFile = sc.textFile(os.environ["SPARK_HOME"] + "/README.md")
wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
for wc in wordCounts.collect(): print wc
但我得到这个错误:导入错误:没有模块名为py4j.protocol
Logicly,所有PySpark的库的依赖,包括当我使用Spark Python源代码配置PyDev时,Py4J会自动导入。所以,这里有什么问题?我的log4j.properties文件有问题吗? 请帮忙!