构建金融数据时间序列与基础数据数据库(多维)

我正在建立一个人工神经网络模型来预测股票走势。我的输入数据是过去20年里211只股票(未清理)的每周股价(开盘价、收盘价、最高价和最低价)、交易量和其他基本比率(总共11个特征)。

我如何组织我的数据在一个单一的数据框架来清理它?

目标是清理数据，降低维数(特征选择)，然后处理模型。

Kaggle有很多关于清理数据集的资源。一个好的方法是以一种有意义的方式聚合所有相关数据，然后开始分析缺失值、缩放/规范化和编码的清理过程。请记住，您稍后有兴趣使用哪些模型来创建时间序列，并了解它们最适合使用哪些类型的数据。这可能需要将一些连续数据转换为更离散的形式。

具体来说，关于安全相关数据的分析和清理，我强烈建议您查看QuantConnect，因为他们有很多针对该主题的教程。

EDA将帮助您挑选出重要的特性，并确定设计它们的最佳方法，从而减少您的痴呆。如果不首先找到每个特征的重要性，就很难确定模型的最佳特征。如果你是EDA的新手，也许可以看看pandas分析，因为它提供了一些有用的见解。

相关内容