我有一个火花RDD本质上是(时间戳,id),其中时间戳是joda DateTime的形式为yyyy/MM/dd HH:mm。 RDD具有阶级性;过滤RDD的日期joda/scala/spark
case class myRDD(timestamp: org.joda.time.DateTime, id: String)
我正在使用Spark和Scala。
我想过滤数据只有一个特定的日期,即2000/01/01,并返回形式(timestamp,id)的东西,但我不确定如何使用filter()与joda时间戳。我已经创建了我想要按以下过滤的时间间隔的开始和结束;
val start = myFormat.parseDateTime("2000/01/01 00:00")
val end = myFormat.parseDateTime("2000/01/02 00:00”)
但我不知道如何将其应用于RDD,或者即使这是解决此问题的最佳方法。任何提示将非常感谢。
是时间戳的字符串或乔达日期时间? – soote
@soote时间戳是一个joda DateTime,我创建的类是窗体; 'case class rdd(timestamp:org.joda.time.DateTime,id:String)' – ellaf