用许多标签稀疏数据



我有这个数据集,在这个数据集中,我必须预测客户在订购了第一个订单后是否会再下第二个订单,如果是,客户在第一个订单之后会在几天内再下一个订单?在培训数据中,如果客户没有下另一个订单,则其标签为N(表示没有订单(,如果客户在180天后下另一订单,则标签为L(表示长订单(。如果第二个订单在0到180天之间,则其标签为第一个订单和第二个命令之间的天数。(例如13,27,45,60135等(。我必须准确地预测客户下另一个订单的天数或(N-无订单,180天后L-订单(。功能仅为1和0',包含646列(稀疏数据(。

首先我很困惑这是什么样的问题。这似乎是分类和回归问题的混合。1首先我必须分类它是属于N、L还是0-180天。然后,如果订单在0-180天之间,我必须预测客户会下另一个订单的确切天数。如果我的想法是正确的,那我的方法应该是什么。欢迎任何其他建议。

PS:共有7474行646列包含具有0和1 的稀疏数据

就我个人而言,我会先做一个简单的分类。在这种情况下,你试图从长期/不购买的客户那里"剔除"短期的重新订单。

确保你在这些类别中有一个合理的分布,以获得一个不错的结果。

然后,您可以开始查看只有特定日期的数据,然后对该子集执行回归。

至于维度的稀疏性,你可以尝试降维,例如PCA或LDA,以更好地表示你的数据,而不浪费不必要的资源(例如,你也可以使用嵌入层(。