我应该使用什么数据结构来处理大量的文本数据



我正在尝试使用scikit-learn的TfidfVectorizer和最近邻算法进行一些文本分类。

我需要找到两个数据集之间的相似性度量,每个数据集包含18000个条目。我不确定什么数据结构可以最好地用于计算我认为应该是18000*18000的相似性指标。

到目前为止我只考虑了dataframe

如果您不需要任何用于进一步分析的中间数据,您可以使用生成器保存您的数据点,然后通过生成器调用运行算法。否则你可能需要一个列表

相关内容

  • 没有找到相关文章

最新更新