尝试在 R 中运行 kNN 时,我收到强制 NA 引入的错误 NA?



我正在尝试在数据集上运行 kNN,但不断收到一些 NA 错误。我已经用尽了堆栈溢出,试图找到解决此问题的方法。我在任何地方都找不到任何有用的东西。

这是我正在使用的数据集:https://www.kaggle.com/tsiaras/uk-road-safety-accidents-and-vehicles

我已经将预测器和目标的每个单因子变量和整数变量转换为数字,以便它可以执行欧氏距离。我已经删除了所有 NA,但 kNN 不断抛出以下错误消息:

NAs introduced by coercionNAs introduced by coercionError in knn(train[2:nrow(train), c(11, 22, 23, 25, 27, 28)], test[(2:nrow(test)), : NA/NaN/Inf in foreign function call (arg 6)

这是我如何转换所有预测变量并运行 kNN 的一个例子:

as.numeric(levels(test$Road_Type))[levels(test$Road_Type)]
as.numeric(levels(train$Road_Type))[levels(train$Road_Type)]
train <- na.exclude(train)
test <- na.exclude(test) 
cl=as.numeric(train[2:nrow(train),5])
cl <- na.exclude(cl)
knn0 <- knn(train[2:nrow(train),c(11,22,23,25,27,28)], test[(2:nrow(test)),c(11,22,23,25,27,28)], cl)

我正在为所有列 11、22、23、25、27、28 以及目标做 as.numeric 的事情。我从 2 开始行,所以它不包括标签。在将参数传递到 kNN 函数之前,我还尝试运行以下代码:

sum(is.na(train[2:nrow(train),c(11,22,23,25,27,28)]))
sum(is.na(test[2:nrow(test),c(11,22,23,25,27,28)]))
sum(is.na(cl))

所有这 3 个都返回 0,因此在我将其传递到 kNN 函数之前没有 NA 值。

编辑

通过转换为数字来修复此问题,如下所示:

train$Road_Type <- as.numeric(as.integer(factor(train$Road_Type)))

感谢所有帮助过的人!

您需要始终查看数据。这有助于您和其他人回答问题。

如果我们检查您的数据,它看起来像这样:

str(df[, c(11, 22, 23, 25, 27, 28)])
'data.frame':   2047256 obs. of  6 variables:
$ Junction_Control                 : chr  "Data missing or out of range" "Auto traffic signal" "Data missing or out of range" "Data missing or out of range" ...
$ Number_of_Vehicles               : int  1 1 2 1 1 2 2 1 2 2 ...
$ Pedestrian_Crossing.Human_Control: int  0 0 0 0 0 0 0 0 0 0 ...
$ Police_Force                     : chr  "Metropolitan Police" "Metropolitan Police" "Metropolitan Police" "Metropolitan Police" ...
$ Road_Type                        : chr  "Single carriageway" "Dual carriageway" "Single carriageway" "Single carriageway" ...
$ Special_Conditions_at_Site       : chr  "None" "None" "None" "None" ...

如果我们将字符转换为数字会发生什么:

df$Police_Force <- as.numeric(df$Police_Forc)
df$Police_Force
[1] NA NA NA NA NA NA NA ....
Warning message:
NAs introduced by coercion

这在 R 中不起作用。但是,如果我们将它们设置为因子,然后将它们更改为数字,则问题就解决了。

df$Police_Force <- as.numeric(as.factor(df$Police_Forc))
df$Police_Force
[1] 30 30 30 30 30 30 30 ...

你的方法不起作用,因为变量不是因素而是特征。

levels(df$Road_Type)
NULL
as.numeric(levels(df$Road_Type))[levels(df$Road_Type)]
numeric(0)

由于您尚未显示数据导入 R 后的外观,因此我可能是错的。我使用了read.csv函数。

您确定已将数据转换为数字吗? as.numeric() 不能就地工作,你必须分配它的结果,就像你用 cl 所做的那样。

最新更新