H2o分析文件时出错



我正在分析一个包含UUID类型的文件。我无法解析文件并得到此错误。

来自/12.0.0.1:54321的DistributedException:"NewChunk的类型为Numeric,但Vec的类型为UUID",由java.lang引起。断言错误:NewChunk具有Numeric类型,但Vec的类型为UUID

有人知道这意味着什么吗?

我在本地下载了你的160MB文件进行实验,发现你的数据格式不正确。

您看到的上述错误只是因为数据集中的最后一列是UUID,所以H2O确保将列类型设置为UUID,但最后一列之后的206000行显示数值,这会导致H2O在将数值设置为UUID时死机。

我能够在H2O中加载多达206000行而没有任何问题,但是207000行给了我错误,所以你可以实验哪些行格式不正确。您可以运行以下命令来获取206000到207000之间的所有行,当加载这1000行时,您会看到同样的问题。

$ sed -n '206000,207000p' < consumer_complaints.csv > consumer_complaints_bad.csv

如果无法在行级别修复格式不正确的数据,则可以将所有列保存为字符串。通过这种方式,H2O将以字符串的形式接收所有数据,然后您可以分析数据,正确地清理它,然后将其更改为正确的enum、int或UUID类型。这不是一个好的选择,因为你的数据格式已经不好了,但通过这种方式,你可以将所有数据加载到H2O中。

相关内容

  • 没有找到相关文章

最新更新