如何用均值聚类曲线



我想聚集一些包含每日点击率的曲线。数据集为时间序列的点击率数据。

y1 = [time1:0.10,time2:0.22,time3:0.344,...]
y2 = [time1:0.10,time2:0.22,time3:0.344,...]

我不知道如何用kmeans来度量两条曲线的相似性。有这方面的论文或图书馆吗?

对于相似性,您可以使用任何类型的时间序列距离。它们中的许多将执行对齐,也包括不同长度的序列。

然而,k-means并不能让你得到任何结果。

K-means 不是表示用于任意距离。它实际上不使用距离进行分配,而是使用最小平方和(恰好是欧几里得距离的平方)-也就是方差。

平均值必须与这一目标一致。不难看出,均值也会使平方和最小化。这保证了k-means的收敛性:在每一步(分配和平均值更新)中,目标被减少,因此它必须在有限数量的步骤后收敛(因为只有有限数量的离散分配)。

但是不同长度的多个时间序列的均值是多少呢?

最新更新