有没有一种简单的方法可以将R中的分类变量和连续变量分离成两个数据集



假设我有大约500个变量可用,我正在尝试为我的模型选择变量(响应是二进制的)

我打算对所有的连续性做一些corr分析,然后再做分类。

由于涉及到很多变量,我无法手动执行。

有我可以使用的功能吗?或者模块?

我在R中使用可用的iris数据集。然后

sapply(iris, is.factor)
Sepal.Length  Sepal.Width Petal.Length  Petal.Width      Species 
       FALSE        FALSE        FALSE        FALSE         TRUE 

会告诉你你的专栏是不是因素。所以使用

iris[ ,sapply(iris, is.factor)]

只能拾取因子列。和

iris[ ,!sapply(iris, is.factor)]

会给你那些不是因子的列。您也可以使用is.numericis.character和其他不同的版本。

您可以使用str(df)来查看哪些列是因子,哪些列不是(df是您的数据帧)。例如,对于R:中的数据虹膜

str(iris)
'data.frame':   150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

或者,您可以使用lapply(iris,class)

$Sepal.Length
[1] "numeric"
$Sepal.Width
[1] "numeric"
$Petal.Length
[1] "numeric"
$Petal.Width
[1] "numeric"
$Species
[1] "factor" 

创建一个函数,该函数为小于总值的某个分数的唯一值的数量返回逻辑值,我选择5%:

 discreteL <- function(x) length(unique(x)) < 0.05*length(x)

现在sapply它(对连续变量取否定)到数据。帧:

 > str( iris[ , !sapply(iris, discreteL)] )
'data.frame':   150 obs. of  4 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...

我想你可以选择一个特定的数字,比如15,作为你的标准。

我应该明确指出,统计理论表明,就所概述的目的而言,这一程序是危险的。仅仅选择与二进制响应最相关的变量是不受支持的。已经有许多研究表明了更好的变量选择方法。所以我的答案实际上只是如何分离,而不是对你模糊描述的总体计划的认可。

相关内容

  • 没有找到相关文章

最新更新