2017-10-17 136 views
2

我解析的文件也包含UUID类型。 我无法解析文件并得到此错误。H2o解析文件时出错

从/127.0.0.1:54321 DistributedException: 'NewChunk具有类型数值,但VEC是类型UUID的',致java.lang.AssertionError:NewChunk具有类型数值,但VEC是类型UUID的

任何人都知道这意味着什么?

+0

请提供一个示例,说明如何尝试现在执行此操作,并在可能的情况下提供数据样本。有多种方法可以将数据导入'h2o'。您的数据来自哪种类型的来源? – Mako212

+0

我正在使用流UI。数据来自csv文件。我在这里共享了csv文件。 https://drive.google.com/open?id=0B9A7NrDPc-aQeTN0QnlpcWFROVE – kivk02

回答

0

我在本地下载了您的160MB文件进行实验,发现您的数据格式不正确。

因为数据集中的最后一列是UUID,所以出现上述错误,因此H2O确保将列类型设置为UUID,但是在最后一列显示数字值后,206000行会导致H2O在设置数值时出现恐慌UUID。

我能够在H2O中加载多达206000行而没有任何问题,但是207000行给了我错误,因此您可以尝试哪些行格式不正确。您可以运行以下命令以获取从206000到207000的所有行,并且在加载这1000行时您将看到相同的问题。

$ sed -n '206000,207000p' <consumer_complaints.csv> consumer_complaints_bad.csv 

如果无法修复行级别格式不正确的数据,则可以将所有列保存为字符串。这样H2O将以字符串形式接收所有数据,然后您可以分析数据,正确清理数据,然后更改为enum或int或UUID。不是一个好的选择,因为你的数据已经格式化不好,但这样你可以把所有的数据加载到H2O中。