新闻文章的在线聚类



是否有一种通用的在线算法可以动态地对新闻进行分类?我有一个由主题归类的大量数据集。我认为每个主题a 群集。现在,我需要对突发新闻进行分类。可能,我需要动态生成新的主题或新主题或新 clusters

我正在使用的算法是:

1(我通过新闻网站的一组供稿,并认识到新闻链接。

2(对于每个新链接,我使用dragnet提取内容,然后我将其引导。

3(我找到了所有旧新闻的矢量表示,而最后一个使用sklearn的tfidfectorizer。

4(我在数据集计算欧几里得的距离中找到了最近的邻居,从上一个新闻向量表示和旧新闻的所有向量表示。

5(如果该距离小于阈值,我将其放在邻居所属的集群中。否则,我将创建一个新的 cluster ,带有突发新闻。

每次新闻到达时,我都会使用TFIDFectorizer重新构建所有数据,因为可以建立新的维度。我迫不及待地想每天重新拟合一次,因为我需要检测破坏事件,这可能与未知主题有关。是否有比我正在使用的方法更有效的方法?

如果自己构建矢量化,添加新数据将变得容易得多。

  1. 您可以琐碎地添加新单词,作为所有早期文档的新列,仅为0。
  2. 不要施加IDF权重,而是将其用作动态权重。

有众所周知的,非常快的实现。

例如Apache Lucene。它可以在线添加新文档,并使用TFIDF的变体进行搜索。

最新更新