使用Sci-Kit对文档(即文本)进行欧几里得距离测量



我是机器学习的新手。经过大量的研究,我决定在我的努力中尽可能多地使用Sci-Kit Learn。但我还是从头开始。

我想做的是对我的文档执行欧几里得距离测量。我使用NLTK来准备文本,使用Sci-Kit来提取文档特征。我现在要做的是测量这些文件的欧几里得距离。

这里是Sci-Kit的欧几里得距离测量文档。我(newb)不清楚我应该传递函数(即euclidean_distances())的哪些特征。谁能告诉我,我需要什么才能通过scikit的欧氏距离函数??

感谢您的帮助

只需输入矢量化器的fit_transform方法的输出。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import euclidean_distances
v = TfidfVectorizer()
X = v.fit_transform(your_documents)
D = euclidean_distances(X)

其中D[i, j]为文档向量X[i]X[j]之间的欧几里得距离

相关内容

  • 没有找到相关文章

最新更新