我正在做一个小项目比方说,我有一个包含大约100K条记录的表,其中包含年龄、性别、地区、生活(名义上-使用产品的天数范围)等列,这里生活是一个因变量,所有其他都是自变量。我从可用的数据中创建了一个决策树。现在我的查询是,假设我有一条新记录,我想知道该记录在遍历决策树后落在哪个终端节点,也就是说,该记录落在哪个生命范围下。为此,我如何将该记录传递给决策树并获得输出?
predict(model,newdata)
假设您的原始data.frame
有您在问题中列出的4列。您的新记录将需要被格式化为具有与您的独立因素相同的列名称的数据框架,例如newdata = data.frame(Age=15,Gender="Male",Region="Southwest")
或任何这些值应该是。让我们假设您已经这样存储了模型model = rpart(Life~.,data=data,method="class")
,那么predict(model,newdata)
将返回新记录属于每个终端类的概率向量。然后,您需要一些截止逻辑来确定将其分配给哪个组。