我正在处理2018-2021年不同单词的每周谷歌搜索量(0-100)数据。例如我的单词数据"黄金price"内容如下:
gold <- (ts(SVI_Log_returns_Winsorized$`gold price`,frequency =52,start = c(2018,1), end = c(2021,52)))
Time Series:
Start = c(2018, 1)
End = c(2021, 52)
Frequency = 52
[1] -0.10919929 0.10919929 -0.03509132 0.00000000 0.13353139 -0.16989904 -0.16034265 0.04255961 -0.04255961 -0.09097178 0.13353139 0.00000000 0.04082199 -0.04082199 0.00000000 -0.08701138
[17] 0.00000000 -0.04652002 0.09097178 -0.04445176 -0.04652002 0.00000000 0.00000000 0.04652002 0.04445176 -0.04445176 0.00000000 0.08701138 0.00000000 -0.04255961 0.00000000 0.26570317
[33] -0.14310084 -0.03922071 -0.12783337 0.08701138 -0.08701138 0.00000000 0.04445176 0.16034265 -0.07696104 -0.04082199 -0.04255961 0.00000000 -0.04445176 0.08701138 -0.08701138 0.08701138
[49] -0.04255961 0.23180161 0.15906469 -0.15906469 -0.10919929 -0.08004271 0.00000000 0.08004271 -0.12260232 0.00000000 0.08338161 -0.04082199 0.00000000 -0.04255961 0.04255961 -0.04255961
[65] -0.04445176 -0.04652002 0.04652002 -0.04652002 0.04652002 0.00000000 0.08701138 -0.08701138 -0.04652002 0.25131443 -0.07696104 0.27763174 0.08701138 -0.11778304 -0.06453852 0.03278982
[81] -0.03278982 0.03278982 0.30228422 0.00000000 -0.15028220 0.02666825 -0.08223810 -0.05884050 -0.06252036 0.00000000 0.00000000 -0.10178269 0.00000000 0.00000000 -0.07410797 0.03774033
[97] -0.03774033 -0.03922071 -0.04082199 0.04082199 0.03922071 0.03774033 0.10536052 0.15415068 0.25131443 -0.22977835 -0.03390155 0.09844007 -0.06453852 -0.06899287 0.22314355 0.30228422
[113] -0.20875481 0.30228422 0.08252102 -0.22977835 -0.22977835 0.00000000 0.07696104 0.05406722 -0.22977835 -0.07410797 -0.05264373 0.05264373 -0.16705408 0.00000000 0.05884050 -0.05884050
[129] 0.08701138 0.02739897 0.12675171 -0.10008346 0.30228422 0.30228422 0.00000000 -0.13503628 -0.21414799 -0.22977835 -0.06453852 -0.19574458 -0.05556985 0.13353139 -0.10536052 0.00000000
[145] 0.00000000 0.00000000 0.05406722 -0.14107860 0.24116206 -0.10008346 0.07598591 -0.02469261 -0.07796154 0.02666825 0.00000000 0.02597549 0.28768207 -0.14458123 -0.04546237 -0.02353050
[161] 0.30228422 -0.22977835 -0.02469261 0.13976194 0.06317890 -0.08515781 -0.11778304 -0.07796154 0.02666825 -0.05406722 -0.02817088 0.02817088 -0.05715841 0.11122564 0.12361396 -0.04762805
[177] -0.05001042 -0.02597549 -0.05406722 0.05406722 0.00000000 -0.08223810 -0.05884050 0.02985296 0.00000000 -0.02985296 -0.03077166 0.24783616 -0.15822401 -0.05884050 -0.06252036 -0.06669137
[193] 0.12921173 0.05884050 0.00000000 -0.02898754 0.00000000 -0.02985296 0.08701138 -0.02817088 0.10821358 -0.05264373 -0.08455739 0.02898754 -0.05884050 0.05884050 -0.02898754 -0.06062462
绘制此数据如下:DiffLog 'Gold price'
如图所示,数据似乎有季节性成分。
使用
分解数据decomp <- stl(gold,"periodic")
plot(decomp)
给出如下分解后的"黄金价格">
看季节图,似乎"黄金价格"这个词的搜索量在每年的年中下降很多。
我不太确定如何消除我的数据中的季节性。我找到了几篇论文,通过保留残差来回归每月假人的数据。我试着复制这个,但我不知道从哪里开始。有人能告诉我如何处理季节性问题吗?
谢谢!
我认为《预测——原理与实践》这本书是一个很好的起点。