H2o解析文件时出错

我解析的文件也包含UUID类型。我无法解析文件并得到此错误。H2o解析文件时出错

从/127.0.0.1:54321 DistributedException： 'NewChunk具有类型数值，但VEC是类型UUID的'，致java.lang.AssertionError：NewChunk具有类型数值，但VEC是类型UUID的

任何人都知道这意味着什么？

2017-10-17 kivk02

请提供一个示例，说明如何尝试现在执行此操作，并在可能的情况下提供数据样本。有多种方法可以将数据导入'h2o'。您的数据来自哪种类型的来源？ – Mako212

我正在使用流UI。数据来自csv文件。我在这里共享了csv文件。 https://drive.google.com/open?id=0B9A7NrDPc-aQeTN0QnlpcWFROVE – kivk02

我在本地下载了您的160MB文件进行实验，发现您的数据格式不正确。

因为数据集中的最后一列是UUID，所以出现上述错误，因此H2O确保将列类型设置为UUID，但是在最后一列显示数字值后，206000行会导致H2O在设置数值时出现恐慌UUID。

我能够在H2O中加载多达206000行而没有任何问题，但是207000行给了我错误，因此您可以尝试哪些行格式不正确。您可以运行以下命令以获取从206000到207000的所有行，并且在加载这1000行时您将看到相同的问题。

$ sed -n '206000,207000p' <consumer_complaints.csv> consumer_complaints_bad.csv

如果无法修复行级别格式不正确的数据，则可以将所有列保存为字符串。这样H2O将以字符串形式接收所有数据，然后您可以分析数据，正确清理数据，然后更改为enum或int或UUID。不是一个好的选择，因为你的数据已经格式化不好，但这样你可以把所有的数据加载到H2O中。

2017-10-18 23:08:06 AvkashChauhan

回答