1

从apache网站下载后,我已经整合了kafka和spark spark。但是,我想为我的大数据解决方案使用Datastax,并且我看到您可以轻松集成Cassandra和Spark。如何在Datastax企业版中集成kafka和spark流?

但是我在最新版本的Datastax企业版中看不到任何卡夫卡模块。如何在这里整合kafka和spark spark?

我想要做的主要是:

  • 启动必要的经纪人和服务器
  • 开始卡夫卡生产
  • 开始卡夫卡消费者
  • 连接火花流卡夫卡的经纪人,并从那里接收消息

但是,在快速谷歌搜索后,我看不到任何卡夫卡一直在我与数据传输企业合并。

我该如何做到这一点?我对datastax和kafka非常陌生,所以我需要一些建议。语言首选项 - Python。 谢谢!

+0

你想使用火花流从卡夫卡看?为什么你会关心它是否是Datastax企业的一部分? –

+0

我想给卡夫卡提供消息,并从火花中读取它。 kafka->火花。我关心,因为我不必担心外部配置,设置kafka和连接依赖关系。这是datastax出名的主要原因。 – HackCode

+0

这并非如此,datastax采用了cassandra,他们正在提供DA解决方案。无论如何,如果你不需要自己管理卡夫卡经纪人,你可以使用克劳德拉的解决方案(不推荐),因为在这个特定情况下,利弊大于利弊。你的问题是关于集成(代码方面)。问题很混乱,我相信你需要更具体以获得更有帮助的答案 –

回答

1

好问题。 DSE不包含开箱即用的Kafka,您必须自己设置kafka,然后设置您的火花流作业以从kafka中读取。由于DSE会捆绑spark,因此请使用DSE Spark来运行Spark流作业。

您可以使用直接kafka API或kafka接收器,更多详情here进行折衷。 TL; DR直接API不需要HA的WAL或动物园管理员。

下面是如何配置卡夫卡到卡里资产阶级与DSE的示例:

https://github.com/CaryBourgeois/DSE-Spark-Streaming/tree/master