r-从ggplot密度/直方图中删除分类变量



我有一个有3个值的变量:男性、女性、未知。对于分析的许多部分,我需要保留未知,但我想做一个密度/直方图,在没有未知的情况下比较一些分数。我还需要添加什么才能去掉其中一个值?

我的数据如下:

GenderDescription SATCompositeSuper
女性 730
女性 780
800
女性 1000
女性 1110
女性 NA
1050
950
未知 900
780

您的示例没有生成您在文章中显示的图,但是,我可以想出两种方法来过滤未知

首先,在绘制数据之前,您可以过滤掉数据

library(dplyr)
library(tidyverse)
master_df <- master_df %>%
drop_na() %>%
filter(GenderDescription != "Unknown")

ggplot(master_df, aes(x=SATCompositeSuper, na.rm=TRUE, color=GenderDescription, fill=GenderDescription)) + 
geom_histogram(aes(y=..density..), alpha=0.5, position="identity") +
geom_density(alpha=.2)  

第二个是在绘制时过滤数据

ggplot(data=master_df[!master_df$GenderDescription %in% c("Unknown"),], aes(x=SATCompositeSuper, na.rm=TRUE, color=GenderDescription, fill=GenderDescription)) + 
geom_histogram(aes(y=..density..), alpha=0.5, position="identity") +
geom_density(alpha=.2)  

最新更新