小贝子编程

机器学习-在特征向量中包含单词位置信息的好方法是什么

本文关键字：信息位置是什么方法包含单特征向量机器学习 machine-learning nlp feature-extraction
更新时间 : 2023-08-22
英文 : machine learning - What is a good way to include position information of a word in feature vector?

我觉得单词袋对我的任务来说太简单了。我想要一些包含单词在特征向量中的位置信息。例如，"good"是倒数第二个，等等。

在大多数情况下，我们使用单词的二元图或三元图作为特征：它承载了句子中的大部分语序信息，而比每个单词的位置信息稀疏得多。

例如，对于句子the cat ate the mouse，八卦的特征是：

<b> <b> the, <b> the cat, the cat ate, cat ate the, ate the mouse, etc.

您也可以保留现有的BOW功能。

此外，如果你使用一个判别模型，你可以添加任何似乎与你的任务相关的功能，即使这个功能不是独立于你现有的功能。

显然，目标总是在信息和稀疏性之间找到正确的平衡。。。这取决于你的数据集，你必须进行实验！

相关内容