用许多标签稀疏数据

我有这个数据集，在这个数据集中，我必须预测客户在订购了第一个订单后是否会再下第二个订单，如果是，客户在第一个订单之后会在几天内再下一个订单？在培训数据中，如果客户没有下另一个订单，则其标签为N(表示没有订单(，如果客户在180天后下另一订单，则标签为L(表示长订单(。如果第二个订单在0到180天之间，则其标签为第一个订单和第二个命令之间的天数。(例如13,27,45,60135等(。我必须准确地预测客户下另一个订单的天数或(N-无订单，180天后L-订单(。功能仅为1和0'，包含646列(稀疏数据(。

首先我很困惑这是什么样的问题。这似乎是分类和回归问题的混合。1首先我必须分类它是属于N、L还是0-180天。然后，如果订单在0-180天之间，我必须预测客户会下另一个订单的确切天数。如果我的想法是正确的，那我的方法应该是什么。欢迎任何其他建议。

PS：共有7474行646列包含具有0和1 的稀疏数据

就我个人而言，我会先做一个简单的分类。在这种情况下，你试图从长期/不购买的客户那里"剔除"短期的重新订单。

确保你在这些类别中有一个合理的分布，以获得一个不错的结果。

然后，您可以开始查看只有特定日期的数据，然后对该子集执行回归。

至于维度的稀疏性，你可以尝试降维，例如PCA或LDA，以更好地表示你的数据，而不浪费不必要的资源(例如，你也可以使用嵌入层(。

相关内容

最新更新

热门标签：