如何用10万个数据样本推广基于序列的模型



我们有一个数据集,其中包含超过40万个独特用户,以及他们一年中访问网站的天数,如下所示。值可以在1和365之间变化。

{
U1:[3,6,28,57,128,129,247,289,...],
U2:[18,77,81,179,340,...],
U3:[192,195,289,298,310,376,...],
U4:[93],
...
...
U400k:[54,97,164,167,250,...]
}

我们有四年的类似数据集。我们想为个人用户预测,一年中的第二天用户可能会再次访问该网站。我在思考如何推广基于序列的模型;但任何其他想法都是受欢迎的。有人知道我们该如何解决这个问题吗?

1(一种方法是对数据进行分类/聚类,并在组级别进行分析。(Dymanic时间序列扭曲或聚类技术(。

如果你想在用户级别进行分析,那么构建所有的10万时间序列。

2( 我觉得根据你所掌握的数据,不可能预测"用户会在哪一天出现在网站上"。你可以通过时间序列算法预测明年的访问量。然后使用访问次数来确定他何时可能到达现场。

3( 你也可以尝试Facebook的先知模型来预测时间序列,特别是在网站上预测访问量。

https://machinelearningstories.blogspot.com/2017/05/facebooks-phophet-model-for-forecasting.html

最新更新