如何构建一个propper H2O word2vec training_frame



如何构建区分不同文档/句子等的H2O word2vec training_frame?

据我从我找到的非常有限的文档中阅读,您只是提供一长串单词?如

'This' 'is' 'the' 'first' 'This' 'is' 'number' 'two'

但是,能够区分是有意义的 - 理想情况下是这样的:

Name   | ID
This   | 1
is     | 1
the    | 1
first  | 1
This   | 2
is     | 2
number | 2
two    | 2

这可能吗?

word2vec是一种无监督学习:它将字符串数据转换为数字。因此,要进行分类,您需要执行两步过程:

  • word2vec 用于字符串到数字
  • 任何将数字到类别的监督学习技术

该文档包含指向每个 R 和 Python 中的分类示例的链接。本教程在不同的数据集上展示了相同的过程(并且应该有一个H2O World 2017视频)。

顺便说一下,在你的原始示例中,你不只是提供单词;句子由NA分隔。如果你给 h2o.tokenize() 一个句子向量,它会为你制作这种格式。所以你的例子实际上是:

"这个"是"第一个"NA"这个"

是"数字"二"

最新更新