我有2个使用spark-cassandra连接器连接到Cassandra的spark任务。 https://github.com/datastax/spark-cassandra-connector从2个不同的cassandra会话读取/写入同一个密钥空间
第一份工作是使用卡夫卡在Spark中流数据并实时处理。处理完每封邮件后,它将邮件保存到Cassandra。
第二项工作是每10秒钟从cassandra读取数据的批处理作业。
因此,一个流式点火作业正在将数据写入Cassandra密钥空间,并且一次又一次地部署其他批处理作业以读取来自SAME键空间的数据。我的问题是:
你能从2个spark任务中打开2个会话来读/写相同的keyspace吗?
注意:我也使用相同的用户名/密码连接cassandra从这两个spark工作。
你想要批量作业是累积的还是仅仅是最后10秒? – RussS
我希望它是通用的。 –