如何判断是否可以将机器学习应用于项目



我正在研究一个个人项目,在该项目中,我在MySQL数据库中记录了自行车租赁服务的数据。脚本每三十分钟运行一次,并为每个自行车站记录数据,并且每个自行车都拥有的自行车。然后,在我的数据库中,我平均每天在给定时间的每一天都有可用性,因为今天,大概的数据记录了2个月。

我已经阅读了一些有关机器学习的文章,我想学习一些。将来可以使用我的数据来训练模型,并在将来通过ML做出更好的预测?

答案很可能是。

第一步是拥有一些数据,听起来像您这样做。您有一个响应(免费自行车),并且在其上变化的某些功能(时间,位置)。您已经通过平均因素来应用基本条件均值模型。您可以通过一些日历事件(例如假日或当地事件标志)来增加有关位置的数据。

每次观察准备一个行的数据集,并在一段时间内基于当前预测过程的准确性,例如平均绝对百分比误差(MAPE)。确保您的预测(平均值)在验证期内不包括验证期内的任何数据! 使用此期间的数据验证您尝试的其他模型。

将其余数据的一部分分为测试集,然后将其余数据用于培训。如果您有很多数据,则常见的培训/测试拆分为70/30。如果数据很小,则可能会降至90/10。

在训练集上学习一个或多个机器学习模型,在测试集上定期检查性能,以确保概括性能仍在提高。许多培训算法实现将为您管理此操作,并在由于过度拟合而开始降低测试性能时自动停止。这是机器学习比当前平均平均水平的巨大好处,能够学习概括并丢弃什么不抛弃的能力。

通过预测验证集,计算MAPE并将模型的可MAPE与同一时期的原始过程进行比较来验证每个模型。祝你好运,喜欢认识机器学习!

最新更新