TF-IDF(主题建模)期间的单词"boosting"

这是一个例子。假设我们有一个包含聊天消息的数据集，我们想对它进行主题建模(例如，一些主题(。

让我们假设，主题A可能(也应该(由几个单词表示，但我知道(比如说来自某个外部来源(，所有包含单词word_to_boost的消息都应该预测为A-归属。所有的预处理和单词袋都完成了。是否有可能"；"助推"；单词word_to_boost以某种方式建议模型将该单词内的所有消息放入A主题中？如果是，是否建议这样做？

我认为这可能是围绕TF-IDF进行的，但可能有不同的方法？

提前感谢！

这里有很多混乱：

主题建模是无监督的，可以看作是一种聚类任务。因此，根据定义，没有预定义的主题，当然也不能将特定的单词预先分配给主题/集群
如果任务涉及预定义的"；主题"；，然后是文本分类：使用一些注释数据训练模型
在文本分类中，如果一个词是类的一个很好的指标，那么模型本身就会很好地利用它。ML方法的全部目的是让模型从数据中学习，否则可以使用基于规则的系统
TFIDF是文本分类中常见的加权方案，但手动修改权重也是一个糟糕的想法：为什么要从数据中学习呢

相关内容

最新更新

热门标签：