使用 K 均值聚类文本数据中的聚类 ID 作为监督学习模型的特征是否是一个坏主意?

我正在构建一个模型，该模型将预测流经管道的产品的提前期。

我有很多不同的功能，一个是包含有关产品用途的几个单词的字符串(通常是缩写，它将成为其中一部分的应用程序名称等等(。我以前在做特征工程时根本没有使用过这个字段。

我在想，最好对此数据进行某种类型的聚类分析，然后将聚类 ID 用作我的模型的功能，也许提前期与该字段中存在的信息类型相关。

这是我的思路(

1(清理和标记文本。

2( TF-IDF

3( 聚类

但仔细想了想，是不是坏主意？由于聚类是基于旧数据的，因此如果在新数据中引入新单词，聚类算法将不会捕获这些单词，并且现在可能应该以不同的方式对数据进行聚类。这是否意味着每当我想预测新数据点时，我都必须重新训练整个模型(k 均值模型，然后是监督模型(？对此有什么最佳实践吗？

是否有更好的方法来查找文本数据的聚类以用作监督模型中的特征？

我理解首先使用无监督聚类算法的冲动，自己看看发现了哪些聚类。当然，您可以尝试这种方式是否对您的任务有所帮助。

但是，由于您已经标记了数据，因此可以在没有中间聚类分析的情况下传递产品描述。然后，您的监督算法将自行学习此功能是否以及如何帮助您完成任务(当然需要进行预处理，例如删除停用词，删除，标记化和特征提取(。

根据您的文本描述，我还可以想象一些简单的序列嵌入可以用作特征提取。嵌入是例如 300 维的向量，它以hp office printer和canon ink jet彼此接近但nice leatherbag与短语相距更远的方式描述单词。例如，fasText-Word-Embeddings已经用英语训练。要获得hp office printer序列的单个嵌入，可以采用三个向量的平均向量(有更多方法可以获取整个序列的嵌入，例如doc2vec(。

但最终您需要运行测试来选择您的功能和方法！

相关内容

最新更新

热门标签：