我正在运行带有4个执行程序(每个1个内核)的Spark-Kafka Streaming作业。而kafka源主题有50个分区。在不增加Cores的情况下增加Spark执行程序的并行度
在流java程序的foreachpartition中,我连接到oracle并做了一些工作。 Apache DBCP2正用于连接池。
Spark-streaming程序正在与数据库建立4个连接 - 每个执行程序可能有1个连接。但是,我的期望是 - 因为有50个分区,应该有50个线程在运行,并且存在50个数据库连接。
如何在不增加内核数量的情况下增加并行度。
这是否意味着我一次最多可以看到4个数据库连接? – AKC