如何构建区分不同文档/句子等的H2O word2vec training_frame?
据我从我找到的非常有限的文档中阅读,您只是提供一长串单词?如
'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'
但是,能够区分是有意义的 - 理想情况下是这样的:
Name | ID
This | 1
is | 1
the | 1
first | 1
This | 2
is | 2
number | 2
two | 2
这可能吗?
word2vec是一种无监督学习:它将字符串数据转换为数字。因此,要进行分类,您需要执行两步过程:
- word2vec 用于字符串到数字
- 任何将数字到类别的监督学习技术
该文档包含指向每个 R 和 Python 中的分类示例的链接。本教程在不同的数据集上展示了相同的过程(并且应该有一个H2O World 2017视频)。
顺便说一下,在你的原始示例中,你不只是提供单词;句子由NA分隔。如果你给 h2o.tokenize() 一个句子向量,它会为你制作这种格式。所以你的例子实际上是:
"这个"是"第一个"NA"这个"是"数字"二"