2016-06-14 71 views
1

我在独立模式下运行Spark,现在我想使用数据进行处理但是我必须复制所有节点中的相同路径。现在我决定使用cassandra文件系统(CFS)共享所有节点之间的数据。 但是,如何运行我的spark工作以在另一个节点中使用cassandra keyspace/table数据? 如何让所有节点都可以访问Cassandra表?spark与cassandra文件系统

+0

你能请详细说明什么是你想达到什么目的?它是否使用spark工作将数据保存到cassandra数据库中?另外,作为分布式数据库,cassandra本质上基于复制因素在所有节点之间共享数据。 –

+0

我有3个cassandra节点(机器),我想用'sc.cassandraTable(“kv”,“tb”)来读取spark中的数据,现在,我该如何设置sparkconf? '新的SparkConf(true) .set(“spark.cassandra.connection.host”,“哪个节点ip”)' 哪个cassandra Ip必须被替换? – Hamid

+0

使用逗号分隔的所有三个IP。 –

回答

0

你应该给一个用逗号分隔的初始联系点列表。连接器将读取群集的元数据以查找cassandra群集中的所有节点。

val conf = new SparkConf(true) 
    .set("spark.cassandra.connection.host", "192.168.123.10,192.168.123.110") 

指为参数的详细信息 - spark cassandra connector doc