统计/算法:如何将每周图表与其自己的历史记录进行比较,以查看过去何时几乎相同?



我有一个统计/数学问题,我真的希望得到一些帮助。我正在做一项研究,我需要将每周图表与其自己的历史进行比较,看看过去它几乎是相同的。将此视为"找到最接近的匹配项"。信息显示为折线图,但以原始数据的形式随时可用:

  • 日期。。。。。。。。。。。。。。。。。。。结果

    • 18-10-08......52.5
    • 18-07-08......60.2
    • 18-06-08......58.5
    • 18-05-08......55.4
    • 18-04-08......55.2
  • 等等...

我真正想要的是输出是当前数据点与历史上另一组 5 个并发数据点之间的一种关联形式。所以,像这样:

  • 日期范围...相关

    • 18-10-07-15-18.0.98

我们将获得一个用Python编写的代码,以便软件自动执行此操作(以便添加新数据时,它会自动运行并找到与当前数字匹配的最接近的数字集(。

困难所在:由于数字随着时间的推移总体呈上升趋势,我们不希望它比较绝对值(因为数字可能永远不会真正匹配(。一个建议是比较增量(前一天的百分比变化率(,或使用对数刻度。

我想知道:我该怎么做?我可以使用哪种计算来获得所需的结果?我看过不同类型的相关方程,但它们不考虑数据的"形状",它们通常只是将其平均出来。折线图的形状很重要。

提前非常感谢!

我只需将每周的数据除以它们的平均值(即将它们标准化为平均值 1(,然后将每对周的每一天差异的平方相加。此金额是您要最小化的。

如果您不关心图形相对于其平均值的振荡量,您也可以对方差进行归一化。对于每周,计算均值和方差,然后减去均值并除以方差根。每周的均值为 0,方差为 1。然后像以前一样最小化差值的平方和。

如果数据规范化是您可以在工作流程中更改的全部内容,只需省略差异平方和最小化部分即可。

最新更新