机器学习-在特征向量中包含单词位置信息的好方法是什么



我觉得单词袋对我的任务来说太简单了。我想要一些包含单词在特征向量中的位置信息。例如,"good"是倒数第二个,等等。

在大多数情况下,我们使用单词的二元图或三元图作为特征:它承载了句子中的大部分语序信息,而比每个单词的位置信息稀疏得多。

例如,对于句子the cat ate the mouse,八卦的特征是:

<b> <b> the, <b> the cat, the cat ate, cat ate the, ate the mouse, etc.

您也可以保留现有的BOW功能。

此外,如果你使用一个判别模型,你可以添加任何似乎与你的任务相关的功能,即使这个功能不是独立于你现有的功能。

显然,目标总是在信息和稀疏性之间找到正确的平衡。。。这取决于你的数据集,你必须进行实验!

相关内容

最新更新