spark-streaming

    0热度

    1回答

    关于第3单元 - 掌握实验......当然有一个例子(Spark Fundamentals 1)用于学习Scala和Spark。 https://courses.cognitiveclass.ai/courses/course-v1:BigDataUniversity+BD0211EN+2016/courseware/14ec4166bc9b4a3a9592b7960f4a5401/b0c7361

    0热度

    2回答

    我从卡夫卡流数据的火花流应用。我严重依赖消息的顺序,因此只有一个在kafka主题中创建的分区。 我部署在集群模式下这份工作。 我的问题是:由于我在集群模式下执行这一点,我可以有不止一个执行者拿起任务,我将失去消息从卡夫卡在这种情况下,收到的订单。如果没有,火花保证订单如何?

    0热度

    1回答

    我写一个星火结构流应用Pyspark不允许从卡夫卡读取数据。 但是,Spark的当前版本是2.1.0,它不允许我将group id设置为参数,并会为每个查询生成唯一的id。但卡夫卡连接是基于组的授权,需要预设的组标识。 因此,是否有任何解决方法来建立连接而不需要更新Spark到2.2,因为我的团队不需要它。 我的代码: if __name__ == "__main__": spark =

    1热度

    1回答

    我试图运行一个结构化的流应用程序,将输出文件作为拼块写入Google云存储。我没有看到任何错误。但它不会将文件写入GCS位置。我只能看到spark-metadata文件夹。任何想法如何我可以调试? windowDuration = "60 minutes"; slideDuration = "10 minutes"; data_2 = complete_data; d

    0热度

    1回答

    我试着去运行中的例子给出目录蟒火花流工作 - https://spark.apache.org/docs/2.1.1/streaming-programming-guide.html """ Counts words in UTF8 encoded, '\n' delimited text received from the network every second. Usage: kafka

    0热度

    1回答

    import org.apache.spark.streaming.twitter._ 给出了错误 对象Twitter是未封装的org.apache.spark.streaming成员 我想使用Spark流式传输Twitter数据。我正在使用SBT,并花了很多时间来解决这个问题。这是我的SBT的样子: name := "stream-demo" version := "1.0" scala

    0热度

    1回答

    我试着去我的天蓝色Blob存储注册到我的火花流,但得到这个代码&错误: - 代码: - SparkConf sparkConf = new SparkConf().setAppName("JavaNetworkWordCount"); JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, Durations.sec

    0热度

    1回答

    下面的简单程序从kafka流中读取并每隔5分钟写入一次CSV文件及其火花流。在“驱动程序”(不在执行程序中)中进行微批处理后,是否可以调用Java函数? 我同意它不是一个很好的习惯来调用流中的任意代码,但这是我们的数据量很低的特殊情况。请adivse。谢谢。 public static void main(String[] args) throws Exception { if (ar

    0热度

    1回答

    我想将dstream元素添加到ArrayBuffer以进一步处理。但它不起作用。 var newBatchMeter = new ArrayBuffer[String]() newBatchReadingDstream.foreachRDD(rdd => { for(item <- rdd.collect()) { newBatchMeter += item.ID

    0热度

    2回答

    我是新来的火花,必须编写一个流式应用程序,必须执行像快速傅里叶变换和一些机器学习的东西,如分类/回归与svms等我想在pyspark这样做,因为python的各种各样的像numpy,scikit学习等模块。我的问题是,是否有可能在流应用程序中做这样的事情?据我所知,spark使用dstreams。这些流可以转换为像numpy数组或类似的东西,可以作为python函数的输入吗? THX