如何聚类包含多列的文本数据?



我想做一个k意味着与具有"标题","流派","评论"和"概要"列的书籍文本数据进行聚类。

我想使用"title"作为聚类的指标或主键,但我不确定如何使用多个列。

我知道我首先必须对数据进行矢量化,但是矢量化接收的是序列数据而不是数据帧值;所以在这里,同样,我不知道如何根据需要使用所有列。

您可以分别对每列进行矢量化并连接结果。

只需确保执行稀疏串联即可。

但是,使用 k 均值对文本进行聚类根本无法正常工作。K-means对异常值和噪声非常敏感,并且测试充满了噪声。k-means的基本假设(k信号和i.i.d.高斯误差(不适用于文本。祝你好运。。。

最新更新