是否可以将单个要素的不同汇总指标用作 k 均值聚类的特征?

我有一个场景，我想了解客户的行为模式，并将他们分组到电子商务平台的不同细分/集群中。我选择无监督机器学习算法：k均值聚类来完成这项任务。

我有purchase_orders可用的数据。

在准备数据集的过程中，我有一个问题：是否可以将不同的汇总指标(如特征(Sum, Avg, Min, Max, Standard Deviation)(视为不同的特征。或者我应该只采用一个功能的一个汇总指标(例如，客户在多个订单上的总交易金额的总和(。

这个effect how the functioning of the k-means algorithm行得通吗？

下面提到的两种数据格式中的哪一种，我可以提供给我的算法是最佳的，以获得良好的结果：

格式-1：

客户编号 |总交易金额 |最小交易金额 | 最大交易金额 |平均交易金额 | 标准开发交易金额 |交易总数等...，

格式-2：

客户编号 |总交易金额 |交易总数等上。。。

(注意：将"|"视为特征分隔符( (注意：客户 ID 不会作为算法的输入提供(

是的，你可以，但这是否是一个好主意几乎很清楚。

这些值将是相关的，因此这将扭曲结果。它可能会使你已经遇到的所有问题(例如值不是线性的，具有相同的重要性，因此需要加权，并且具有相似的量级(变得更糟。

使用诸如"交易金额"和"交易数量"之类的功能，您已经有一些非常糟糕的扩展问题需要解决，那么为什么要添加更多呢？

写下你的目标函数很简单。将您的功能放入等式中，并尝试了解您正在优化的内容 - 这真的是您需要的吗？或者你只是想要一些随机结果？

相关内容