在Weka中工作时,最后一个属性数据类型需要是标称的



我正在weka中工作,其中具有count作为最后一个属性的数据集。count属性是一个数字数据类型,它指的是在特定日期租用的自行车数量。例:12,15,30,11,45。我想在我的测试数据集中预测这些值。

您可以使用带有数字目标属性的线性回归(Weka称之为"类属性")。事实上,Weka在"分类"选项卡下的所有算法都是不可用的(因为数字类属性)。

如果你有很多离散的自变量,例如:"weather","is_weekend","payment mode","customer_gender",…你也可以使用Weka的"离散"过滤器将数字类属性转换为离散类,例如间隔类,如0-10自行车/天,10-20自行车/天等。

为了这样做,您必须临时将类属性分配给任何另一个属性,使用过滤器选项卡右下角顶部的选择框来执行此操作。然后应用离散过滤器,但仅限于类bikes_per_day属性(默认情况下,过滤器将所有属性离散化)。然后将class属性重新分配给最后一个离散化的属性。

那么Weka的分类算法,如J48将可用(不再灰色)。它们可能会给出更简洁、可解释的结果,例如小决策树,如:如果season = summer and day= weekend and weather_forecasting =sunny,那么predicted_rented_class=40-50 bikes/day

这取决于你的算法。

分类算法通常需要一个标称的或二进制的"目标"值。

回归算法需要一个数值目标。

最新更新