R:如何根据另一个变量一起找到的频率创建组



我有一个dataset,它有大约300个不同的类别代码(X2(,每个代码都与一个数字(X1(相关,该数字经常在不同的类别码上重复,反之亦然:

X1   X2 
1923 AA12 
1923 AA28 
1923 AA23 
1348 AA12 
1348 AB17 
1348 AB08 
9334 AA12 
9334 AD02

等等。

我想弄清楚如何创建不同的类别代码组或桶,这些代码通常是基于X1变量一起找到的。我想不出一个简单的方法来做这件事。

有什么想法吗?

谢谢!

我不确定您所期望的格式,但我只是将X1和X2列粘贴在一起,然后使用table来给出频率计数。如果你想看到最常见的,只需使用sort函数即可订购

假设您的数据位于一个名为df的数据帧中

sort(table(paste0(df$X1, "_", df$X2)))

如果你的意图是在原始数据帧中给出标签,以确定它们是否经常被发现在一起,请提供更多信息。因为没有一致的方法来识别"最经常一起发现的",除非你的意思是你只想对那些频率最高的人进行分类。

最新更新