小贝子编程

我应该使用什么数据结构来处理大量的文本数据

我正在尝试使用scikit-learn的TfidfVectorizer和最近邻算法进行一些文本分类。

我需要找到两个数据集之间的相似性度量，每个数据集包含18000个条目。我不确定什么数据结构可以最好地用于计算我认为应该是18000*18000的相似性指标。

到目前为止我只考虑了dataframe

如果您不需要任何用于进一步分析的中间数据，您可以使用生成器保存您的数据点，然后通过生成器调用运行算法。否则你可能需要一个列表

最新更新