是否可以将单个要素的不同汇总指标用作 k 均值聚类的特征?



我有一个场景,我想了解客户的行为模式,并将他们分组到电子商务平台的不同细分/集群中。我选择无监督机器学习算法:k均值聚类来完成这项任务。

我有purchase_orders可用的数据。

在准备数据集的过程中,我有一个问题:是否可以将不同的汇总指标(如特征(Sum, Avg, Min, Max, Standard Deviation)(视为不同的特征。或者我应该只采用一个功能的一个汇总指标(例如,客户在多个订单上的总交易金额的总和(。

这个effect how the functioning of the k-means algorithm行得通吗?

下面提到的两种数据格式中的哪一种,我可以提供给我的算法是最佳的,以获得良好的结果:

格式-1:

客户编号 |总交易金额 |最小交易金额 | 最大交易金额 |平均交易金额 | 标准开发交易金额 |交易总数等...,

格式-2:

客户编号 |总交易金额 |交易总数等 上。。。

(注意:将"|"视为特征分隔符( (注意:客户 ID 不会作为算法的输入提供(

是的,你可以,但这是否是一个好主意几乎很清楚。

这些值将是相关的,因此这将扭曲结果。它可能会使你已经遇到的所有问题(例如值不是线性的,具有相同的重要性,因此需要加权,并且具有相似的量级(变得更糟。

使用诸如"交易金额"和"交易数量"之类的功能,您已经有一些非常糟糕的扩展问题需要解决,那么为什么要添加更多呢?

写下你的目标函数很简单。将您的功能放入等式中,并尝试了解您正在优化的内容 - 这真的是您需要的吗?或者你只是想要一些随机结果?

最新更新