H2o分析文件时出错

我正在分析一个包含UUID类型的文件。我无法解析文件并得到此错误。

来自/12.0.0.1:54321的DistributedException："NewChunk的类型为Numeric，但Vec的类型为UUID"，由java.lang引起。断言错误：NewChunk具有Numeric类型，但Vec的类型为UUID

有人知道这意味着什么吗？

我在本地下载了你的160MB文件进行实验，发现你的数据格式不正确。

您看到的上述错误只是因为数据集中的最后一列是UUID，所以H2O确保将列类型设置为UUID，但最后一列之后的206000行显示数值，这会导致H2O在将数值设置为UUID时死机。

我能够在H2O中加载多达206000行而没有任何问题，但是207000行给了我错误，所以你可以实验哪些行格式不正确。您可以运行以下命令来获取206000到207000之间的所有行，当加载这1000行时，您会看到同样的问题。

$ sed -n '206000,207000p' < consumer_complaints.csv > consumer_complaints_bad.csv

如果无法在行级别修复格式不正确的数据，则可以将所有列保存为字符串。通过这种方式，H2O将以字符串的形式接收所有数据，然后您可以分析数据，正确地清理它，然后将其更改为正确的enum、int或UUID类型。这不是一个好的选择，因为你的数据格式已经不好了，但通过这种方式，你可以将所有数据加载到H2O中。

相关内容