如何用均值聚类曲线

我想聚集一些包含每日点击率的曲线。数据集为时间序列的点击率数据。

y1 = [time1:0.10,time2:0.22,time3:0.344,...]
y2 = [time1:0.10,time2:0.22,time3:0.344,...]

我不知道如何用kmeans来度量两条曲线的相似性。有这方面的论文或图书馆吗?

对于相似性，您可以使用任何类型的时间序列距离。它们中的许多将执行对齐，也包括不同长度的序列。

然而，k-means并不能让你得到任何结果。

K-means 不是表示用于任意距离。它实际上不使用距离进行分配，而是使用最小平方和(恰好是欧几里得距离的平方)-也就是方差。

平均值必须与这一目标一致。不难看出，均值也会使平方和最小化。这保证了k-means的收敛性:在每一步(分配和平均值更新)中，目标被减少，因此它必须在有限数量的步骤后收敛(因为只有有限数量的离散分配)。

但是不同长度的多个时间序列的均值是多少呢?

相关内容