r语言 - 防止 h2o 导入文件中出现不匹配的引号解析错误



这是斯坦福GLOVE项目提供的流行的预训练词向量文件。它通常用于自然语言应用程序。

解析错误可能是我试图修复的一些不可预测行为的根本原因。奇怪的东西(未显示(在这个十六进制帧上执行 as.data.frame 后出现。所以我想以某种方式修复这个早期的错误。

# How to eliminate parse error?
g6B = h2o.importFile(path = "/mnt/fastssd/glove/glove.6B/glove.6B.100d.txt", header=FALSE, na.strings=NA, sep=" ")
WARNING: ParseError at file nfs://mnt/fastssd/glove/glove.6B/glove.6B.100d.txt  at byte offset 7674; error = 'Unmatched quote char "' 
  |======================================================================| 100%
Warning message in doTryCatch(return(expr), name, parentenv, handler):
“ParseError at file /mnt/fastssd/glove/glove.6B/glove.6B.100d.txt  at byte offset 7674; error = 'Unmatched quote char "'”

H2O中有没有办法修复此错误? 如果不是,那么还有什么办法呢?谢谢

我下载了手套.6B.100d.txt测试,并在 R 中使用最新的 H2O 3.10.4.3 进行了快速尝试,并且确实看到了相同的警告,但数据被正确摄取。

我仍然可以正确使用具有 399,999 行和 101 列的数据框,因此我可以确认数据摄取是正确的,并且警告不会在数据摄取中引起任何问题。

我已经打开了以下JIRA来解决警告问题:

https://0xdata.atlassian.net/browse/PUBDEV-4284

相关内容

  • 没有找到相关文章

最新更新