spark-streaming

0热度

1回答

关于第3单元 - 掌握实验......当然有一个例子（Spark Fundamentals 1）用于学习Scala和Spark。 https://courses.cognitiveclass.ai/courses/course-v1:BigDataUniversity+BD0211EN+2016/courseware/14ec4166bc9b4a3a9592b7960f4a5401/b0c7361

0热度

2回答

与星火执行人订单消息的

我从卡夫卡流数据的火花流应用。我严重依赖消息的顺序，因此只有一个在kafka主题中创建的分区。我部署在集群模式下这份工作。我的问题是：由于我在集群模式下执行这一点，我可以有不止一个执行者拿起任务，我将失去消息从卡夫卡在这种情况下，收到的订单。如果没有，火花保证订单如何？

0热度

1回答

星火流：卡夫卡组ID星火结构化流

我写一个星火结构流应用Pyspark不允许从卡夫卡读取数据。但是，Spark的当前版本是2.1.0，它不允许我将group id设置为参数，并会为每个查询生成唯一的id。但卡夫卡连接是基于组的授权，需要预设的组标识。因此，是否有任何解决方法来建立连接而不需要更新Spark到2.2，因为我的团队不需要它。我的代码： if __name__ == "__main__": spark =

1热度

1回答

结构化流创建除火花元数据（Parquet）以外的任何其他文件

我试图运行一个结构化的流应用程序，将输出文件作为拼块写入Google云存储。我没有看到任何错误。但它不会将文件写入GCS位置。我只能看到spark-metadata文件夹。任何想法如何我可以调试？ windowDuration = "60 minutes"; slideDuration = "10 minutes"; data_2 = complete_data; d

0热度

1回答

阿帕奇火花流式运行Python的例子

我试着去运行中的例子给出目录蟒火花流工作 - https://spark.apache.org/docs/2.1.1/streaming-programming-guide.html """ Counts words in UTF8 encoded, '\n' delimited text received from the network every second. Usage: kafka

0热度

1回答

对象Twitter是不包org.apache.spark.streaming的成员

import org.apache.spark.streaming.twitter._ 给出了错误对象Twitter是未封装的org.apache.spark.streaming成员我想使用Spark流式传输Twitter数据。我正在使用SBT，并花了很多时间来解决这个问题。这是我的SBT的样子： name := "stream-demo" version := "1.0" scala

0热度

1回答

火花流访问蔚蓝BLOB

我试着去我的天蓝色Blob存储注册到我的火花流，但得到这个代码&错误： - 代码： - SparkConf sparkConf = new SparkConf().setAppName("JavaNetworkWordCount"); JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, Durations.sec

0热度

1回答

在Spark流中的每个微批次之后调用java函数

下面的简单程序从kafka流中读取并每隔5分钟写入一次CSV文件及其火花流。在“驱动程序”（不在执行程序中）中进行微批处理后，是否可以调用Java函数？我同意它不是一个很好的习惯来调用流中的任意代码，但这是我们的数据量很低的特殊情况。请adivse。谢谢。 public static void main(String[] args) throws Exception { if (ar

0热度

1回答

如何将Spark Dstream元素添加到ArrayBuffer中

我想将dstream元素添加到ArrayBuffer以进一步处理。但它不起作用。 var newBatchMeter = new ArrayBuffer[String]() newBatchReadingDstream.foreachRDD(rdd => { for(item <- rdd.collect()) { newBatchMeter += item.ID

0热度

2回答

pyspark streaming适合机器学习/科学计算吗？

我是新来的火花，必须编写一个流式应用程序，必须执行像快速傅里叶变换和一些机器学习的东西，如分类/回归与svms等我想在pyspark这样做，因为python的各种各样的像numpy，scikit学习等模块。我的问题是，是否有可能在流应用程序中做这样的事情？据我所知，spark使用dstreams。这些流可以转换为像numpy数组或类似的东西，可以作为python函数的输入吗？ THX