Spark与Cassandra python安装

-1

我想用spark在Cassandra表上做一些简单的计算，但我很迷茫。Spark与Cassandra python安装

于是我运行PySpark外壳：用

./bin/pyspark \ 
    --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.0-M3

但我不知道如何从这里设置的东西，。我如何让Spark知道我的Cassandra群集在哪里？我已经看到CassandraSQLContext可以用于这个，但我也读过，这已被弃用。

但是，如果使用

import com.datastax.spark.connector._

Python中说，它无法找到该模块。有人可能会指出我如何正确设置正确的方向吗？

2017-03-05 SilverTear

Cassandra连接器不提供任何Python模块。所有功能都与Data Source API一起提供，只要所需的罐子存在，所有的东西都应该可以直接使用。

我如何让Spark知道我的Cassandra群集在哪里？

使用spark.cassandra.connection.host属性。您可以为exampel通过它为/pyspark参数：

pyspark ... --conf spark.cassandra.connection.host=x.y.z.v

或在您的配置设置：

(SparkSession.builder 
    .config("cassandra.connection.host", "x.y.z.v"))

配置如表名或密钥空间可以直接在阅读器设置：

(spark.read 
    .format("org.apache.spark.sql.cassandra") 
    .options(table="kv", keyspace="test", cluster="cluster") 
    .load())

所以你可以按照Dataframes文件。

作为一个侧面说明

import com.datastax.spark.connector._

是Scala的语法和Python是只接受偶然。

2017-03-05 12:54:52 user6910411

回答