构建金融数据时间序列与基础数据数据库(多维)



我正在建立一个人工神经网络模型来预测股票走势。我的输入数据是过去20年里211只股票(未清理)的每周股价(开盘价、收盘价、最高价和最低价)、交易量和其他基本比率(总共11个特征)。

我如何组织我的数据在一个单一的数据框架来清理它?

目标是清理数据,降低维数(特征选择),然后处理模型。

Kaggle有很多关于清理数据集的资源。一个好的方法是以一种有意义的方式聚合所有相关数据,然后开始分析缺失值、缩放/规范化和编码的清理过程。请记住,您稍后有兴趣使用哪些模型来创建时间序列,并了解它们最适合使用哪些类型的数据。这可能需要将一些连续数据转换为更离散的形式。

具体来说,关于安全相关数据的分析和清理,我强烈建议您查看QuantConnect,因为他们有很多针对该主题的教程。

EDA将帮助您挑选出重要的特性,并确定设计它们的最佳方法,从而减少您的痴呆。如果不首先找到每个特征的重要性,就很难确定模型的最佳特征。如果你是EDA的新手,也许可以看看pandas分析,因为它提供了一些有用的见解。

最新更新