在nycflights13数据集中,哪家航空公司在9月份的起飞时间最长
q8 <- flights%>%
select(carrier,month,dep_delay)%>%
filter(month==9)%>%
group_by(carrier)%>%
tally()%>%
arrange(desc(n))
这是我使用的代码
代码解决方案
我已经提供了我的代码来回答这个问题,并为代码的每个部分做了注释。您的代码的主要问题是,它没有包含查找航班是否延误的方法。由于使用的是数字变量,它可以包含零甚至负值(航班有时提前起飞),因此不能简单地对其进行分组。我在下面展示了一种方法,它只过滤大于0的值(换句话说,延迟至少一分钟的航班)。
flights %>% # take this data
filter(month == 9, # filter for September
dep_delay > 0) %>% # pick only flights with delays
group_by(carrier) %>% # group by carrier
count() %>% # count delayed flights by carrier
arrange(desc(n)) # arrange in descending order
输出上面的代码给出了这样的输出,显示UA在9月有最多的延迟(n = 1559):
# A tibble: 16 × 2
# Groups: carrier [16]
carrier n
<chr> <int>
1 UA 1559
2 EV 1338
3 B6 1190
4 DL 919
5 AA 709
6 MQ 556
7 WN 483
8 9E 449
9 US 306
10 VX 142
11 FL 109
12 F9 29
13 YV 16
14 AS 7
15 HA 2
16 OO 1