是否有任何可简化此代码的可用功能?想知道特定week
中product
的sales
与其总销售额的比例
library(dplyr)
# Create data.frame
df <- tribble(
~week, ~product, ~sales,
1L, "A", 40,
1L, "B", 20,
2L, "A", 50,
2L, "C", 10
)
# Total sales
df_summ <- df %>%
group_by(product) %>%
summarise(total = sum(sales))
# Expected result
df_prop <- df %>%
inner_join(df_summ) %>%
mutate(prop = sales / total) %>%
select(-sales, -total) # optional
结果:
#> A tibble: 4 x 3
#> week product prop
#> <int> <chr> <dbl>
#> 1 A 0.444444
#> 1 B 1.000000
#> 2 A 0.555555
#> 2 C 1.000000
尚不清楚您的问题是否是关于功能的(在这种情况下,您可能正在寻找prop.table
)或关于一种方法(例如,在同一步骤中以销售量为单位)。
无论如何,您应该能够以:
获得所需的输出df %>%
group_by(product) %>%
mutate(prop = prop.table(sales)) %>% ## OR > mutate(prop = sales/sum(sales))
select(-sales)
# # A tibble: 4 x 3
# # Groups: product [3]
# week product prop
# <int> <chr> <dbl>
# 1 1 A 0.4444444
# 2 1 B 1.0000000
# 3 2 A 0.5555556
# 4 2 C 1.0000000
在基本R中,您可以使用prop.table
获得值(但以不同的格式)。尝试:
prop.table(xtabs(sales ~ product + week, df), 1)
# week
# product 1 2
# A 0.4444444 0.5555556
# B 1.0000000 0.0000000
# C 0.0000000 1.0000000
在上面,xtabs
步骤仅重塑您的数据,然后您将prop.table
与基于行总数的比例使用。
> xtabs(sales ~ product + week, df)
week
product 1 2
A 40 50
B 20 0
C 0 10
它可以是 data.table 软件包的一条短线:
setDT(df)[, prop:=sales/sum(sales), by=product]
输出:
week product sales prop
1: 1L A 40 0.4444444
2: 1L B 20 1.0000000
3: 2L A 50 0.5555556
4: 2L C 10 1.0000000
或者您正在寻找 dyplr 解决方案,那么如@brian所建议:
df %>% group_by(product) %>% mutate(prop = sales/sum(sales))
输出:
# A tibble: 4 x 4
# Groups: product [3]
week product sales prop
<int> <chr> <dbl> <dbl>
1 1 A 40 0.4444444
2 1 B 20 1.0000000
3 2 A 50 0.5555556
4 2 C 10 1.0000000