我觉得单词袋对我的任务来说太简单了。我想要一些包含单词在特征向量中的位置信息。例如,"good"是倒数第二个,等等。
在大多数情况下,我们使用单词的二元图或三元图作为特征:它承载了句子中的大部分语序信息,而比每个单词的位置信息稀疏得多。
例如,对于句子the cat ate the mouse
,八卦的特征是:
<b> <b> the, <b> the cat, the cat ate, cat ate the, ate the mouse, etc.
您也可以保留现有的BOW功能。
此外,如果你使用一个判别模型,你可以添加任何似乎与你的任务相关的功能,即使这个功能不是独立于你现有的功能。
显然,目标总是在信息和稀疏性之间找到正确的平衡。。。这取决于你的数据集,你必须进行实验!