2016-09-06 98 views
0

解析文件我有条目这样无法使用Java API星火

10.28 INFO [EFKLogger] - POGUpdateTenestenerServiceImpl: Entering listener with object 624866045533 

现在利用星火我要算的队列数量击中每隔一小时一个日志文件。队列是POGUpdateTenestenerServiceImpl。现在我想要一个只包含时间和队列的JAVARDD,所以我可以对它执行操作。我是新的顶级火花,只有找到方法来创建包含所有单词或整行的RDD。我只需要一行两个单词。我怎样才能做到这一点

回答

1

,您应该使用SparkContext的textFile功能来读取文件:

这里是Scala的例子,它可以很容易地转换成Java

val text = sc.textFile("data.csv") //Read the file 
val words = text.map(line=> line.split(" ")) //Break the line to words 

现在的话说就是一连串的单词,你可以拿走第一秒,并随你做他想做的事。

+0

谢谢我反正使用地图功能。您的解决方案也适用 –