r-从ggplot密度/直方图中删除分类变量

我有一个有3个值的变量：男性、女性、未知。对于分析的许多部分，我需要保留未知，但我想做一个密度/直方图，在没有未知的情况下比较一些分数。我还需要添加什么才能去掉其中一个值？

我的数据如下：

GenderDescription	SATCompositeSuper

女性	730
女性	780
男	800
女性	1000
女性	1110
女性	NA
男	1050
男	950
未知	900
男	780

您的示例没有生成您在文章中显示的图，但是，我可以想出两种方法来过滤未知

首先，在绘制数据之前，您可以过滤掉数据

library(dplyr)
library(tidyverse)
master_df <- master_df %>%
drop_na() %>%
filter(GenderDescription != "Unknown")

ggplot(master_df, aes(x=SATCompositeSuper, na.rm=TRUE, color=GenderDescription, fill=GenderDescription)) + 
geom_histogram(aes(y=..density..), alpha=0.5, position="identity") +
geom_density(alpha=.2)

第二个是在绘制时过滤数据

ggplot(data=master_df[!master_df$GenderDescription %in% c("Unknown"),], aes(x=SATCompositeSuper, na.rm=TRUE, color=GenderDescription, fill=GenderDescription)) + 
geom_histogram(aes(y=..density..), alpha=0.5, position="identity") +
geom_density(alpha=.2)

相关内容

最新更新

热门标签：