如何处理倾斜的时间序列数据



我有每小时的数据。人们花在网上的时间长达2年。因此,这些值分布在0到60之间,而且大多数数据要么是0,要么是60。我的目标是预测这个人在未来(第二天/下一个小时/下一个月等)会花多少分钟上网。什么样的方法或机器学习模型可以用来预测这些数据?尽管存在偏性,这是否可以建模为回归/预测问题?每小时数据

对于时间序列数据及其预测,最好使用回归模型而不是分类或聚类模型。因为它与计算具体数字有关。

在某种程度上可以将其建模为回归问题,但偏度越大意味着偏离正态概率分布,这可能会影响模型中的表达式,降低预测精度,等等。无论如何,任何具有显著偏度的数据都不能被视为精细化的数据。因此,您可能需要重新排列数据的样本,以便减少数据的偏度。

最新更新