我正在尝试使用scikit-learn的TfidfVectorizer和最近邻算法进行一些文本分类。
我需要找到两个数据集之间的相似性度量,每个数据集包含18000个条目。我不确定什么数据结构可以最好地用于计算我认为应该是18000*18000的相似性指标。
到目前为止我只考虑了dataframe
如果您不需要任何用于进一步分析的中间数据,您可以使用生成器保存您的数据点,然后通过生成器调用运行算法。否则你可能需要一个列表