获取K-means聚类任务的句子向量



我正在从事一个项目,该项目根据使用K-means的作业描述,将发布在各种作业门户网站上的作业分组为集群。

我使用Word2Vec找到了工作向量,但我想这不会起到作用,因为我需要整个工作描述的向量。

我知道我可以平均出一个句子的单词向量来得到句子向量,但担心准确性,因为这会打乱单词的顺序。

还有其他方法可以得到向量吗?

文本矢量化最常用的方法:

  1. 纯TF-IDF仍然很有用,尤其是使用n-gram
  2. 使用Word2Vec获取单词的矢量。对于整个文本,使用所有向量的平均值
  3. 结合前两种方法:使用TF-IDF的系数获得文本中所有单词的加权平均值

我建议尝试每种方法,并选择在您的情况下表现更好的方法。根据数据的性质,结果可能略有不同。

您可以通过非常有用的句子嵌入方法来促进迁移学习,例如Bert as service或PensioneBert,甚至通用句子编码。所有这些都很容易使用,并且充满了网络教程。在大多数情况下,它们将比TF-IDF工作得更好。

您还可以尝试doc2vec,它是word2vec的扩展,用于构建整个文档的表示。gensim中有一个可用的实现:

https://radimrehurek.com/gensim/models/doc2vec.html

最新更新