使用 K 均值聚类文本数据中的聚类 ID 作为监督学习模型的特征是否是一个坏主意?



我正在构建一个模型,该模型将预测流经管道的产品的提前期。

我有很多不同的功能,一个是包含有关产品用途的几个单词的字符串(通常是缩写,它将成为其中一部分的应用程序名称等等(。我以前在做特征工程时根本没有使用过这个字段。

我在想,最好对此数据进行某种类型的聚类分析,然后将聚类 ID 用作我的模型的功能,也许提前期与该字段中存在的信息类型相关。

这是我的思路(

1(清理和标记文本。

2( TF-IDF

3( 聚类

但仔细想了想,是不是坏主意?由于聚类是基于旧数据的,因此如果在新数据中引入新单词,聚类算法将不会捕获这些单词,并且现在可能应该以不同的方式对数据进行聚类。这是否意味着每当我想预测新数据点时,我都必须重新训练整个模型(k 均值模型,然后是监督模型(?对此有什么最佳实践吗?

是否有更好的方法来查找文本数据的聚类以用作监督模型中的特征?

我理解首先使用无监督聚类算法的冲动,自己看看发现了哪些聚类。当然,您可以尝试这种方式是否对您的任务有所帮助。

但是,由于您已经标记了数据,因此可以在没有中间聚类分析的情况下传递产品描述。然后,您的监督算法将自行学习此功能是否以及如何帮助您完成任务(当然需要进行预处理,例如删除停用词,删除,标记化和特征提取(。

根据您的文本描述,我还可以想象一些简单的序列嵌入可以用作特征提取。嵌入是例如 300 维的向量,它以hp office printercanon ink jet彼此接近但nice leatherbag与短语相距更远的方式描述单词。例如,fasText-Word-Embeddings已经用英语训练。要获得hp office printer序列的单个嵌入,可以采用三个向量的平均向量(有更多方法可以获取整个序列的嵌入,例如doc2vec(。

但最终您需要运行测试来选择您的功能和方法!

最新更新