余弦相似度在Python的上下文中两个词之间



我试图在python中执行文本数据集中两个单词之间的余弦相似性(每个文本代表一条推文)。我想根据它们所在的上下文来评估它们的相似性。

我设置了如下代码:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
corpus = dataset
// corpus is a list of texts (in this case is a list of tweets)
vectorizer = TfidfVectorizer()
trsfm = vectorizer.fit_transform(corpus)
sims = cosine_similarity(trsfm, trsfm)
counts = count_vect.fit_transform(corpus)
pd.DataFrame(trsfm.toarray(), columns = vectorizer.get_feature_names(), index = corpus)
vectorizer.get_feature_names()

结果是文本之间的相似度,但我想要两个单词之间的相似度。

那么,我现在可以得到两个单词之间的相似性,而不是两个文本之间的相似性吗?例如,我想知道这几个词之间的相似度:{["covid","vaccine"], ["work","covid"], ["environment","pollution"]}。

此外,我想在笛卡尔平面中重新预设这些单词,以便以图形方式显示它们之间的距离。所以我需要计算它们的笛卡尔坐标

有人能帮我吗?

这里有一些有用的链接,你可以开始使用-

https://www.tensorflow.org/text/guide/word_embeddings  
https://arxiv.org/abs/1810.04805  
https://machinelearningmastery.com/what-are-word-embeddings/  
https://www.analyticsvidhya.com/blog/2017/06/word-embeddings-count-word2veec/  

最新更新