获取K-means聚类任务的句子向量

我正在从事一个项目，该项目根据使用K-means的作业描述，将发布在各种作业门户网站上的作业分组为集群。

我使用Word2Vec找到了工作向量，但我想这不会起到作用，因为我需要整个工作描述的向量。

我知道我可以平均出一个句子的单词向量来得到句子向量，但担心准确性，因为这会打乱单词的顺序。

还有其他方法可以得到向量吗？

文本矢量化最常用的方法：

我建议尝试每种方法，并选择在您的情况下表现更好的方法。根据数据的性质，结果可能略有不同。

您可以通过非常有用的句子嵌入方法来促进迁移学习，例如Bert as service或PensioneBert，甚至通用句子编码。所有这些都很容易使用，并且充满了网络教程。在大多数情况下，它们将比TF-IDF工作得更好。

您还可以尝试doc2vec，它是word2vec的扩展，用于构建整个文档的表示。gensim中有一个可用的实现：

https://radimrehurek.com/gensim/models/doc2vec.html

相关内容