如何使用机器学习模型将来自不同测量的多个数据集用于一个预测?如何将数据拆分为列车测试集



我正在研究锂离子电池的容量预测模型。

我有来自10个不同电池的10个数据集,包括容量和多种功能。每个数据集都与时间有关。最后,我想预测特定时间的容量。

为此,我想使用所有数据构建一个模型,但我不确定如何继续使用来自10个不同测量的10个数据集。我可以将10个数据集合并为1,然后将完整的数据集划分为训练集、测试集和验证集吗?我不确定,因为每个数据集的时间戳都是相同的。

我建议您像这样一个接一个地添加数据集:

Index          Columns
time1 battery1  feature1 feature2 ... y_true=capacity
time1 battery2  feature1 feature2 ... y_true
...
time2 battery1  feature1 feature2 ... y_true
time2 battery2  feature1 feature2 ... y_true
...

然后你可以对电池进行onehot编码,并将其作为一个功能(是否要找到一些异常值,取决于你是否想找到它们(

请小心使用sklearn中的TimeSeriesSplit。你需要分组然后分开。这样就不会在同一时间代码的电池批次中间发生分裂。否则你会有一个前瞻性的偏差