我是机器学习的新手。经过大量的研究,我决定在我的努力中尽可能多地使用Sci-Kit Learn。但我还是从头开始。
我想做的是对我的文档执行欧几里得距离测量。我使用NLTK来准备文本,使用Sci-Kit来提取文档特征。我现在要做的是测量这些文件的欧几里得距离。
这里是Sci-Kit的欧几里得距离测量文档。我(newb)不清楚我应该传递函数(即euclidean_distances())的哪些特征。谁能告诉我,我需要什么才能通过scikit的欧氏距离函数??
感谢您的帮助
只需输入矢量化器的fit_transform
方法的输出。
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import euclidean_distances
v = TfidfVectorizer()
X = v.fit_transform(your_documents)
D = euclidean_distances(X)
其中D[i, j]
为文档向量X[i]
和X[j]
之间的欧几里得距离