计数抛出java.lang.NumberFormatException：空上从对象存储器装载有则InferSchema文件启用

来自IBM蓝色装入混合对象存储一个数据帧的计数（）抛出时则InferSchema启用了以下情况例外：计数抛出java.lang.NumberFormatException：空上从对象存储器装载有则InferSchema文件启用

Name: org.apache.spark.SparkException 
Message: Job aborted due to stage failure: Task 3 in stage 43.0 failed 10 times, most recent failure: Lost task 3.9 in stage 43.0 (TID 166, yp-spark-dal09-env5-0034): java.lang.NumberFormatException: null 
    at java.lang.Integer.parseInt(Integer.java:554) 
    at java.lang.Integer.parseInt(Integer.java:627) 
    at scala.collection.immutable.StringLike$class.toInt(StringLike.scala:272) 
    at scala.collection.immutable.StringOps.toInt(StringOps.scala:29) 
    at org.apache.spark.sql.execution.datasources.csv.CSVTypeCast$.castTo(CSVInferSchema.scala:241) 
    at org.apache.spark.sql.execution.datasources.csv.CSVRelation$$anonfun$csvParser$3.apply(CSVRelation.scala:116) 
    at org.apache.spark.sql.execution.datasources.csv.CSVRelation$$anonfun$csvParser$3.apply(CSVRelation.scala:85) 
    at org.apache.spark.sql.execution.datasources.csv.CSVFileFormat$$anonfun$buildReader$1$$anonfun$apply$2.apply(CSVFileFormat.scala:128) 
    at org.apache.spark.sql.execution.datasources.csv.CSVFileFormat$$anonfun$buildReader$1$$anonfun$apply$2.apply(CSVFileFormat.scala:127) 
    at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434) 
    at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440) 
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408) 
    at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:91)

如果禁用inferSchema，我不会收到上述异常。为什么我得到这个异常？默认情况下，如果启用了“inferSchema”，则数据库将读取多少行？

来源

2017-06-11 Garipaso

您使用的是什么版本的spark csv？ – eliasah

火花csv版本是1.5 – Garipaso

和火花？ – eliasah

这实际上是spark-csv包（null value still not correctly parsed #192）被拖入spark 2.0的问题。它已被更正并推入spark 2.1。

以下是关联的PR：[SPARK-18269][SQL] CSV datasource should read null properly when schema is lager than parsed tokens。

由于您已经在使用spark 2.0，因此您可以轻松升级到2.1并删除spark-csv软件包。无论如何它不需要。

来源

2017-06-11 16:29:27 eliasah

谢谢，在2.0有什么解决这个问题吗？ – Garipaso

我还有一个问题，实际上上面的加载工作正常，没有问题，在我的应用程序中使用相同的命令失败，出现上述异常。可能是什么原因？所有这一切都在火花2.0上。 – Garipaso

不太可能。这是在spark 2.1中的合并，并且解决这个问题可能会有点痛苦。（脏解读为文本和映射（解析）然后转换为DF） – eliasah

计数抛出java.lang.NumberFormatException：空上从对象存储器装载有则InferSchema文件启用

回答

相关问题