我想聚集一些包含每日点击率的曲线。数据集为时间序列的点击率数据。
y1 = [time1:0.10,time2:0.22,time3:0.344,...]
y2 = [time1:0.10,time2:0.22,time3:0.344,...]
我不知道如何用kmeans来度量两条曲线的相似性。有这方面的论文或图书馆吗?
对于相似性,您可以使用任何类型的时间序列距离。它们中的许多将执行对齐,也包括不同长度的序列。
然而,k-means并不能让你得到任何结果。
K-means 不是表示用于任意距离。它实际上不使用距离进行分配,而是使用最小平方和(恰好是欧几里得距离的平方)-也就是方差。
平均值必须与这一目标一致。不难看出,均值也会使平方和最小化。这保证了k-means的收敛性:在每一步(分配和平均值更新)中,目标被减少,因此它必须在有限数量的步骤后收敛(因为只有有限数量的离散分配)。
但是不同长度的多个时间序列的均值是多少呢?