2016-11-23 74 views
3

我正在将我的spark应用程序连接到DashDB。目前,我可以加载我的数据就好了。将JDBC驱动到带有CLOB错误的DashDB(DB2)

但是,我无法将DataFrame保存到DashDB。

任何见解都会有所帮助。

var jdbcSets = sqlContext.read.format("jdbc").options(Map("url" -> url, "driver" -> driver, "dbtable" -> "setsrankval")).load() 
    jdbcSets.registerTempTable("setsOpponentRanked") 
    jdbcSets = jdbcSets.coalesce(10) 
    sqlContext.cacheTable("setsOpponentRanked") 

然而,当我试图挽救大DataFrames,我得到的错误:

DB2 SQL错误:SQLCODE = -1666,SQLSTATE = 42613,则sqlerrmc = CLOB,DRIVER = 26年4月19日

的代码我使用保存数据如下:

val writeproperties = new Properties() 
    writeproperties.setProperty("user", "dashXXXX") 
    writeproperties.setProperty("password", "XXXXXX") 
    writeproperties.setProperty("rowId", "false") 
    writeproperties.setProperty("driver", "com.ibm.db2.jcc.DB2Driver") 
    results.write.mode(SaveMode.Overwrite).jdbc(writeurl, "players_stat_temp", writeproperties) 

示例测试数据集在这里可以看到:

println("Test set: "+results.first()) 
Test set: ['Damir DZUMHUR','test','test','test','test','test','test','test','test','test','test','test','test','test','test','test','test','test','test','test','test','test',null,null,null,null,null,null,null] 

数据帧架构如下:

root 
|-- PLAYER: string (nullable = true) 
|-- set01: string (nullable = true) 
|-- set02: string (nullable = true) 
|-- set12: string (nullable = true) 
|-- set01weakseed: string (nullable = true) 
|-- set01medseed: string (nullable = true) 
|-- set01strongseed: string (nullable = true) 
|-- set02weakseed: string (nullable = true) 
|-- set02medseed: string (nullable = true) 
|-- set02strongseed: string (nullable = true) 
|-- set12weakseed: string (nullable = true) 
|-- set12medseed: string (nullable = true) 
|-- set12strongseed: string (nullable = true) 
|-- set01weakrank: string (nullable = true) 
|-- set01medrank: string (nullable = true) 
|-- set01strongrank: string (nullable = true) 
|-- set02weakrank: string (nullable = true) 
|-- set02medrank: string (nullable = true) 
|-- set02strongrank: string (nullable = true) 
|-- set12weakrank: string (nullable = true) 
|-- set12medrank: string (nullable = true) 
|-- set12strongrank: string (nullable = true) 
|-- minibreak: string (nullable = true) 
|-- minibreakweakseed: string (nullable = true) 
|-- minibreakmedseed: string (nullable = true) 
|-- minibreakstrongseed: string (nullable = true) 
|-- minibreakweakrank: string (nullable = true) 
|-- minibreakmedrank: string (nullable = true) 
|-- minibreakstrongrank: string (nullable = true) 

我已经看过了JDBC DB2Dialect和看到,StringType代码被映射到CLOB。我想知道以下内容是否有帮助:

private object DB2CustomDialect extends JdbcDialect { 
    override def canHandle(url: String): Boolean = url.startsWith("jdbc:db2") 
    override def getJDBCType(dt: DataType): Option[JdbcType] = dt match { 
      case StringType => Option(JdbcType("VARCHAR(10000)", java.sql.Types.VARCHAR)) 
      case BooleanType => Option(JdbcType("CHAR(1)", java.sql.Types.CHAR)) 
      case _ => None 
    } 
} 

回答

1

是的的确,DB2Dialect的当前实现并不是最优的。我们将看看,并可能会创建一个pull请求,将StringType映射更改为VARCHAR。

我猜想在第一个地方使用CLOB的原因在于,如果希望能够存储所有长度的字符串,而VARCHAR最大限制为DB2/dDBDB页面大小,则这样做更安全。但我认为人们不太可能会将很长的字符串放入数据框的属性中,并且CLOB会引起各种操作故障,例如,它在DB2中的COLUMN ORGANIZED表中不受支持,这是dashDB中的默认表类型,这就是为什么在尝试将数据框写入dashDB时遇到问题。但是CLOB对于DB2中的IO性能也存在问题,因为它不一定像所有其他表数据一样缓存在数据库内存中。

作为现在的解决方法,您可以做的事情确实只是注册一个自定义方言,正如您在JdbcDialects.registerDialect()中提出的那样,直到接受提到的请求为止。

+0

我有完全相同的问题,但我使用PySpark。我怎样才能解决这个问题? –

+0

您可以在使用Pixidust的Scala桥接功能的PySpark笔记本中应用此修补程序。我写了一篇关于整个问题和解决方案的博客文章,其中包含示例笔记本的链接:http://datascience.ibm.com/blog/working-with-dashdb-in-data-science-experience/ –

+0

我已经看到了这个文章之前,我实际上使用IBM的spark-submit而不是Notebooks/DSX。你是否说我需要在本地修复我的脚本,然后将它提交到Spark Cluster?由于Spark集群是托管服务,是否安装了所有这些依赖项? –

1

通过添加自定义方言很好地工作。

JdbcDialects.registerDialect(new DB2CustomDialect()) 
0

请注意,DSX(即datascience.ibm.com)尚未解决此问题。因此,在使用dashDB的DSX中使用笔记本电脑时,现在不再需要部署自定义方言。

相关问题