这是我的查询,因为我还没有找到合适的答案。 我有一个数据集,描述了13年内在丹麦不同城市之间流动的总人数的所有组合。
我想要的是一年中所有城市组合之间的流动总和。
请参阅下面的代码:
library("tidyverse")
library("statsDK")
# GETTING DATA FROM DANISH ARCHIVES
fly66_0 <- retrieve_data("FLY66", ALDER = "0")
fly66_1 <- retrieve_data("FLY66", ALDER = "1")
fly66_2 <- retrieve_data("FLY66", ALDER = "2")
fly66_3 <- retrieve_data("FLY66", ALDER = "3")
fly66_4 <- retrieve_data("FLY66", ALDER = "4")
fly66_5 <- retrieve_data("FLY66", ALDER = "5")
fly_66 <- rbind(fly66_0, fly66_1, fly66_2, fly66_3, fly66_4, fly66_5)
fly_66 <- fly_66 %>%
group_by(TO_muni, FROM_muni, YEAR) %>%
summarise(Number = sum(Number))
这导致下表(我已将列名称更改为英语(:
# A tibble: 6 x 4
# Groups: TILKOMMUNE, FRAKOMMUNE [3]
TO_muni FROM_muni YEAR Number
<chr> <chr> <dbl> <dbl>
1 101 202 2006 1
2 101 202 2007 3
3 202 101 2006 2
4 202 101 2007 3
5 101 303 2006 2
6 303 101 2007 1
但我想要的是这样的:
# A tibble: 6 x 4
# Groups: TILKOMMUNE, FRAKOMMUNE [3]
TO_muni FROM_muni YEAR Number
<chr> <chr> <dbl> <dbl>
1 101 202 2006 -1
2 101 202 2007 0
3 202 101 2006 1
4 202 101 2007 0
5 101 303 2006 2
6 303 101 2006 -2
5 101 303 2007 -1
6 303 101 2007 1
我已经尝试了以下内容,但我无法理解它:
library("reshape2")
fly_66 <- fly_66 %>%
dcast(TO_muni + YEAR ~ FROM_muni, value.var = "YEAR", fill = 0)
希望这是有道理的,并提前感谢。
不简单,但你可以分 3 个步骤完成
从以下开始:fly_66 <- rbind(fly66_0, fly66_1, fly66_2, fly66_3, fly66_4, fly66_5)
您首先获得实际输出:
fly_66a <- fly_66 %>%
group_by(TO_muni, FROM_muni, YEAR) %>%
summarise(Number = sum(Number))
然后你为相反的流程"否定"它:
fly_66b <- fly_66 %>%
group_by(TO_muni, FROM_muni, YEAR) %>%
summarise(Number = -sum(Number)) %>% #negative sum here
rename(FROM_muni = TO_muni, TO_muni = FROM_muni) #you invert the column names to simulate the opposite flow
您现在可以绑定它,并使用"完成"函数生成缺少的组合,您可以简单地用 0 填充它
fly_66_final <- fly_66a %>%
bind_rows(fly_66b) %>%
complete(TO_muni, FROM_muni, YEAR, fill = list(Number = 0))
然后,您可以按照您想要的方式进行安排