错误的R Studio和RGUI遇到了致命的错误.分类大数据集的预测建模



我正在处理具有21个属性的数据集。1分是分类的,有3个是序数因素,2个是日期/时间(目标变量)。行数为14512。

我要实现的目标:此数据集基本上是关于不同团队关闭的每日办公室事件,我们正在尝试预测在某些预测变量的情况下将花费的时间。/p>

我正在使用R-Studio进行分析。

完成的工作:因此,我认为使用KNN进行计算,并将所有预测变量转换为二进制虚拟变量,而目标变量则变量为A,B,C分类。

问题:现在,一旦我应用KNN功能示例:

RPS_test_pred <- knn(train = RPS_train, test = RPS_test,cl = RPS_train_labels, k=1121)

保持k为1121(由于数据集中有14513行,还将训练和测试数据分为70:30)

r Studio崩溃并关闭说明 - 发生致命错误。

请提出其他任何方法来计算此数据或我应该使用的任何其他建模技术,以更适合此类数据。

过去,我曾与包含许多序数和分类变量的数据集合作,并在做出一些转换以使其数字方面取得了成功。以下是住房价格数据的一些示例。

序数变量首先,我建议根据其相对顺序将您的顺序变量更改为数值:

train$Exter.Quality[train$ExterQual == "Excellent"] <- 4
train$Exter.Quality[train$ExterQual == "Good"] <- 3
train$Exter.Quality[train$ExterQual == "Nominal"] <- 2
train$Exter.Quality[train$ExterQual == "Fair"] <- 1

分类变量一直努力根据您要查看的响应变量的平均值来利用组排名(在我的情况下是销售价格):

nbhdprice <- summarize(group_by(train, Neighborhood),
          mean(SalePrice, na.rm=T))

nbhdprice_lo <- filter(nbhdprice, nbhdprice$`mean(SalePrice, na.rm = T)` < 140000)
nbhdprice_med <- filter(nbhdprice, nbhdprice$`mean(SalePrice, na.rm = T)` < 200000 &
                          nbhdprice$`mean(SalePrice, na.rm = T)` >= 140000 )
nbhdprice_hi <- filter(nbhdprice, nbhdprice$`mean(SalePrice, na.rm = T)` >= 200000)
train$nbhd_price_level[train$Neighborhood %in% nbhdprice_lo$Neighborhood] <- 1
train$nbhd_price_level[train$Neighborhood %in% nbhdprice_med$Neighborhood] <- 2
train$nbhd_price_level[train$Neighborhood %in% nbhdprice_hi$Neighborhood] <- 3

可以在此处的代码空间中找到更多示例:https://www.kaggle.com/skirmer/fun-with-real-estate-data/code

最新更新