您需要配置pyspark内核。
在我的服务器位于jupyter内核:
/usr/local/share/jupyter/kernels/
您可以通过一个新的目录中创建一个新的内核:
mkdir /usr/local/share/jupyter/kernels/pyspark
然后创建kernel.json文件 - 我粘贴我作为参考:
{
"display_name": "pySpark (Spark 1.6.0)",
"language": "python",
"argv": [
"/usr/local/bin/python2.7",
"-m",
"ipykernel",
"-f",
"{connection_file}"
],
"env": {
"PYSPARK_PYTHON": "/usr/local/bin/python2.7",
"SPARK_HOME": "/usr/lib/spark",
"PYTHONPATH": "/usr/lib/spark/python/lib/py4j-0.9-src.zip:/usr/lib/spark/python/",
"PYTHONSTARTUP": "/usr/lib/spark/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "--master yarn-client pyspark-shell"
}
}
调整路径a nd python版本和你的pyspark内核是很好的去。
我认为spark-submit仅适用于jar文件。 – arj
它也适用于python脚本(至少在新版本中) –
我明白了。因此,通过这种方式,我在Spark Cluster(本地,独立,mesos或yarn)中运行JupyterHub本身,并且假设打开一个新的python笔记本将加载sparkcontext和spark API。这样对吗? 哦,我从斌/ pyspark看到准备的变量后执行 的exec“$ SPARK_HOME” /斌/火花提交pyspark壳主“$ @” – arj