如何构建一个propper H2O word2vec training_frame

如何构建区分不同文档/句子等的H2O word2vec training_frame？

据我从我找到的非常有限的文档中阅读，您只是提供一长串单词？如

'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'

但是，能够区分是有意义的 - 理想情况下是这样的：

Name   | ID
This   | 1
is     | 1
the    | 1
first  | 1
This   | 2
is     | 2
number | 2
two    | 2

这可能吗？

word2vec是一种无监督学习：它将字符串数据转换为数字。因此，要进行分类，您需要执行两步过程：

该文档包含指向每个 R 和 Python 中的分类示例的链接。本教程在不同的数据集上展示了相同的过程（并且应该有一个H2O World 2017视频）。

顺便说一下，在你的原始示例中，你不只是提供单词;句子由NA分隔。如果你给 h2o.tokenize（）一个句子向量，它会为你制作这种格式。所以你的例子实际上是：

"这个"是"第一个"NA"这个"
是"数字"二"

相关内容