2017-04-08 45 views
2

我有67百万Oracle记录,某些列XMLType作为数据类型。无法从Oracle加载XMLTYPE数据类型到Spark SQL中

我使用Spark SQL提取从Oracle所有的记录,但我得到

数据类型不受支持的错误

星火控制台。

如何更改XMLType,以便它可以成功将其加载到Spark SQL

我的计划是我使用Spark SQL负载加载到Apache HBaseOracleApache HBase加载所有这些记录。

回答

1

添加火花XML支持库以下是统筹

的groupId:com.databricks的artifactId:火花xml_2.11版本:0.4.1

那么你可以得到XML文件作为像一个数据帧:

import org.apache.spark.sql.SQLContext 
val sqlContext = new SQLContext(sc) 
val df = sqlContext.read 
     .format("com.databricks.spark.xml") 
     .option("rowTag", "book") 
     .load("books.xml") 

欲了解更多信息已经看XML Data Source for Apache Spark

将其转换为数据框后,您可以在数据框上激发sql。

相关问题