轻松删除
我有以下格式的订单数据集:
Ordernumber; Category; # Sold Items
123; A; 3
123; B; 4
234; B; 2
234; C; 1
234; D; 5
...
所以,每个顺序的行都与订单中不同类别的行一样多。
现在,我想计算每个类别对以一个顺序订购的频率。
最后,我想拥有一个像这样的"相关"矩阵
A B C D
A 1
B 1 1 1
C 1 1
D 1 1
有人有一个好(简单)的想法吗?
非常感谢!
也许使用矩阵乘法可让您到达那里:
dat <- read.table(header=T, text="Ordernumber; Category; Sold Items
123; A; 3
123; B; 4
234; B; 2
234; C; 1
234; D; 5", sep=";")
tt <- table(dat[1:2])
crossprod(tt) # t(tt) %*% tt
# Category
#Category A B C D
# A 1 1 0 0
# B 1 2 1 1
# C 0 1 1 1
# D 0 1 1 1
这具有对角线,但可以通过diag