1
我想阅读Spark流代码中的HBase数据,以便查找和进一步增强流式数据。我正在使用spark-hbase-connector_2.10-1.0.3.jar
。阅读Scala中的HBase - it.nerdammer
在我下面的代码行是成功的
val docRdd =
sc.hbaseTable[(Option[String], Option[String])]("hbase_customer_profile")
.select("id","gender").inColumnFamily("data")
docRdd.count
返回正确的计数。
docRdd
的类型是
HBaseReaderBuilder(org.apache.spark.SparkContext @ 3a49e5,hbase_customer_profile,一些(数据),WrappedArray(ID, 性别),无,无,列表())
如何读取id, gender
列中的所有行。另外我怎样才能将docRdd
转换成数据帧,以便SparkSQL可以使用。
谢谢@Beryllium。我会试试这个。我想在SparkStream中使用RDD。我希望它也是可序列化的。再次感谢您的帮助 –
您是否需要关于此问题的更多帮助? – Beryllium
我都在这一套。谢谢.. –