我有一个dataset
,它有大约300个不同的类别代码(X2
(,每个代码都与一个数字(X1
(相关,该数字经常在不同的类别码上重复,反之亦然:
X1 X2
1923 AA12
1923 AA28
1923 AA23
1348 AA12
1348 AB17
1348 AB08
9334 AA12
9334 AD02
等等。
我想弄清楚如何创建不同的类别代码组或桶,这些代码通常是基于X1
变量一起找到的。我想不出一个简单的方法来做这件事。
有什么想法吗?
谢谢!
我不确定您所期望的格式,但我只是将X1和X2列粘贴在一起,然后使用table
来给出频率计数。如果你想看到最常见的,只需使用sort
函数即可订购
假设您的数据位于一个名为df
的数据帧中
sort(table(paste0(df$X1, "_", df$X2)))
如果你的意图是在原始数据帧中给出标签,以确定它们是否经常被发现在一起,请提供更多信息。因为没有一致的方法来识别"最经常一起发现的",除非你的意思是你只想对那些频率最高的人进行分类。