我有一个有3个值的变量:男性、女性、未知。对于分析的许多部分,我需要保留未知,但我想做一个密度/直方图,在没有未知的情况下比较一些分数。我还需要添加什么才能去掉其中一个值?
我的数据如下:
GenderDescription | SATCompositeSuper |
---|---|
女性 | 730 |
女性 | 780 |
男 | 800 |
女性 | 1000 |
女性 | 1110 |
女性 | NA |
男 | 1050 |
男 | 950 |
未知 | 900 |
男 | 780 |
您的示例没有生成您在文章中显示的图,但是,我可以想出两种方法来过滤未知
首先,在绘制数据之前,您可以过滤掉数据
library(dplyr)
library(tidyverse)
master_df <- master_df %>%
drop_na() %>%
filter(GenderDescription != "Unknown")
ggplot(master_df, aes(x=SATCompositeSuper, na.rm=TRUE, color=GenderDescription, fill=GenderDescription)) +
geom_histogram(aes(y=..density..), alpha=0.5, position="identity") +
geom_density(alpha=.2)
第二个是在绘制时过滤数据
ggplot(data=master_df[!master_df$GenderDescription %in% c("Unknown"),], aes(x=SATCompositeSuper, na.rm=TRUE, color=GenderDescription, fill=GenderDescription)) +
geom_histogram(aes(y=..density..), alpha=0.5, position="identity") +
geom_density(alpha=.2)