2017-06-01 66 views
1

我拥有带镶木地板数据的Hive外部桌子。这里没有使用压缩。我正在使用spark工作将数据(parquet文件)写入HDFS目录。但是当我尝试从表格中选择数据时,出现错误/警告并且输出不出现。 我相信这是一个常见问题。请让我知道我该如何克服这一点?蜂巢式外置桌子,镶木地板数据不选择数据

蜂巢 - 1.2.1000.2.5.0.0-1245 HDP - 2.5.0.0-1245 火花1.6.2版

2017年6月1日下午5时04分27秒警告:org.apache .parquet.CorruptStatistics:由于created_by无法解析统计信息(参见PARQUET-251):parquet-mr版本1.6.0 org.apache.parquet.VersionParser $ VersionParseException:无法解析created_by:parquet-mr版本1.6.0使用格式:(。+)版本((。))?(build?(。)) at org.apache.parquet.VersionParser.parse(VersionParser.java:112) at org.apache .parquet.CorruptStatistics.shouldIgnoreStatistics(CorruptStatistics.java:60) 在org.apache.parquet.format.converter.ParquetMetadataConverter.fromParquetStatistics(ParquetMetadataConverter.java:263)

看来,由于所用的实木复合地板作家版本在Spark工作中,用于在Hive中读取的那个是不同的,它们之间存在差距。在这里,我们可以在Hive中看到正在使用的版本是parquet-mr版本1.6.0

现在,如果有人能告诉我如何更改spark工作中使用的parquet writer的版本或者如何更改Hive parquet阅读器版本,我可以尝试解决这个问题。

回答

-1

你看到的例外是无害的。