2017-03-05 126 views
-1

我想用spark在Cassandra表上做一些简单的计算,但我很迷茫。Spark与Cassandra python安装

我试图遵循:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

于是我运行PySpark外壳:用

./bin/pyspark \ 
    --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.0-M3 

但我不知道如何从这里设置的东西,。我如何让Spark知道我的Cassandra群集在哪里?我已经看到CassandraSQLContext可以用于这个,但我也读过,这已被弃用。

我已阅读本:How to connect spark with cassandra using spark-cassandra-connector?

但是,如果使用

import com.datastax.spark.connector._ 

Python中说,它无法找到该模块。 有人可能会指出我如何正确设置正确的方向吗?

回答

0

Cassandra连接器不提供任何Python模块。所有功能都与Data Source API一起提供,只要所需的罐子存在,所有的东西都应该可以直接使用。

我如何让Spark知道我的Cassandra群集在哪里?

使用spark.cassandra.connection.host属性。您可以为exampel通过它为​​/pyspark参数:

pyspark ... --conf spark.cassandra.connection.host=x.y.z.v 

或在您的配置设置:

(SparkSession.builder 
    .config("cassandra.connection.host", "x.y.z.v")) 

配置如表名或密钥空间可以直接在阅读器设置:

(spark.read 
    .format("org.apache.spark.sql.cassandra") 
    .options(table="kv", keyspace="test", cluster="cluster") 
    .load()) 

所以你可以按照Dataframes文件。

作为一个侧面说明

import com.datastax.spark.connector._ 

是Scala的语法和Python是只接受偶然。