TF-IDF(主题建模)期间的单词"boosting"



这是一个例子。假设我们有一个包含聊天消息的数据集,我们想对它进行主题建模(例如,一些主题(。

让我们假设,主题A可能(也应该(由几个单词表示,但我知道(比如说来自某个外部来源(,所有包含单词word_to_boost的消息都应该预测为A-归属。所有的预处理和单词袋都完成了。是否有可能";"助推";单词word_to_boost以某种方式建议模型将该单词内的所有消息放入A主题中?如果是,是否建议这样做?

我认为这可能是围绕TF-IDF进行的,但可能有不同的方法?

提前感谢!

这里有很多混乱:

  • 主题建模是无监督的,可以看作是一种聚类任务。因此,根据定义,没有预定义的主题,当然也不能将特定的单词预先分配给主题/集群
  • 如果任务涉及预定义的";主题";,然后是文本分类:使用一些注释数据训练模型
  • 在文本分类中,如果一个词是类的一个很好的指标,那么模型本身就会很好地利用它。ML方法的全部目的是让模型从数据中学习,否则可以使用基于规则的系统
  • TFIDF是文本分类中常见的加权方案,但手动修改权重也是一个糟糕的想法:为什么要从数据中学习呢

最新更新